CN110020596B

CN110020596B - 一种基于特征融合和级联学习的视频内容定位方法

Info

Publication number: CN110020596B
Application number: CN201910129460.7A
Authority: CN
Inventors: 赵祈杰; 单开禹; 王勇涛; 汤帜
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2021-04-30
Anticipated expiration: 2039-02-21
Also published as: CN110020596A

Abstract

本发明公布了一种基于特征融合的视频内容定位方法，包括视频的特征提取过程、特征融合过程和视频内容定位过程。特征融合包括前融合和后融合；前融合将视频各维度的低层次特征进行级联后通过神经网络

进行融合；后融合将神经网络

的输出进行拼接，再通过神经网络CF(·)对视频各维度的高层语义特征进行融合。本发明能够解决视频图像和声音中包含的互补的高层语义信息丢失的问题，实现视频内容的精准定位。

Description

一种基于特征融合和级联学习的视频内容定位方法

技术领域

本发明属于机器视觉及深度学习技术领域，涉及视频内容定位技术，尤其涉及一种使用级联神经网络基于特征前后融合的视频内容定位的方法。

背景技术

在各种各样的视频中，包含着大量的事件和动作等，视频的核心内容在这些事件中。然而视频大多是冗余的，长时间的，观看者需要在大量的冗余信息中寻找有用信息，所以急需一种技术可以自动定位出所需要的内容片段。这种视频内容定位对后续进行内容分析，分类有着很大帮助，在安防，教育，影视领域中都有很大应用空间。

在关于视频内容定位方法的现有技术中，采用神经网络方法，但对于图像、声音等不同维度的信息特征并不进行深度融合，而是对信息特征进行简单拼接以后就作为视频特征表示，作为后级神经网络的输入。例如：用卷积神经网络方法得到视频的RGB图像的特征向量X，如果视频帧长为T，则得到维度为(T,l_i)的特征向量，其中l_i为视频内容类别数，例如在ActivityNet数据集中l_i为200；声音的特征向量为Y，同样也是维度为(T,l_i)的特征向量。将图像和声音的特征向量级联得

其中n是模态总个数。使用特征向量F作为视频最终的特征表示，作为后一级神经网络的输入，进行视频内容定位。

视频图像和视频声音中包含的信息差别很大，而且具有互补效应。比如综艺节目中定位一个歌手的表演片段，由于镜头并不是时时对准歌手，而是会不时指向观众等区域，而歌手的声音可以用来帮助准确识别表演片段的位置。

现有视频内容定位方法中，神经网络的特征提取模块直接将视频图像的特征向量和视频声音的特征向量进行简单拼接作为视频的特征向量，会损失掉图像和声音特征中包含的互补的高层语义信息，大大降低视频内容定位的精确性，难以实现视频内容的精准定位。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于特征融合的视频内容定位方法，基于特征前融合、后融合和级联学习，使用级联的神经网络来进行视频的特征提取、特征融合、内容定位，用以解决视频图像和声音中包含的互补的高层语义信息丢失的问题，实现视频内容的精准定位。

本发明提供的技术方案是：

一种基于特征融合的视频内容定位方法，使用级联的神经网络进行视频的特征提取、特征融合、内容定位；视频包括多个维度的特征，如图像特征、声音特征和光流特征等；特征融合包括前融合和后融合；前融合对视频各个维度的低层次特征进行融合，方法为将各个低层次特征级联后通过神经网络

进行融合；后融合网络CF(·)对视频各个维度的高层语义特征进行融合，方法为将神经网络C₁，C₂，…C_i，

的输出进行拼接，再通过神经网络CF(·)进行融合；具体包括如下步骤：

1)提取视频各个模态的低层次特征，如图像特征、声音特征和光流特征等，得到多个二维特征向量；分别记为fi，二维特征向量的相应大小为(T，l_i)，T为视频抽帧帧数；i表示各个模态/维度；

本发明方法输入的是提取出的f1,f2,…fn的大小相同的特征feature。特征提取可采用现有方法。本发明具体实施时，以图像特征和声音特征为例，即模态数为2，采用TSN和VGGish提取视频各个模态的低层次特征。

1.1)预训练视频分类器，作为视频图像特征提取模块M1；

包括：抽取视频帧，将视频转化为多帧图片；使用Temporal Segment Network(TSN:https://github.com/yjxiong/tsn-pytorch)模型作为预训练视频分类器，即RGB图像特征提取模块；将图像特征提取模块输出特征向量，作为提取得到的视频图像特征；

具体实施时，对于RGB图片，首先使用工具ffmepeg抽取视频帧，将视频转化为多帧图片。记每个视频抽帧帧数为T。在UCF101数据集的训练集上抽好图片帧后，使用TSN模型结构预训练一个视频分类器，将预训练好的TSN视频分类器作为RGB图像特征提取模块M1。然后将预训练好的视频分类器(TSN模型)最后线性层finetune为实际使用的数据集动作类别数(假设为l_i)，将模型最后输出的特征向量记为f1，二维特征向量大小为：(T，l₁)。

其中，TSN模型采用文献“L.Wang,Y.Xiong,Z.Wang,Y.Qiao,D.Lin,X.Tang,andL.Van Gool.Temporal segment networks:Towards good practices for deep actionrecognition.In European Conference on Computer Vision,pages”中记载的模型结构，代码链接：https://github.com/yjxiong/tsn-pytorch。

1.2)训练声音特征提取器M2；

包括：从视频中提取声音信号；对提取的声音信号进行微调得到实际使用的数据集中每个视频对应的声音特征；输出的声音特征向量即为提取得到的视频声音特征；

具体实施时，使用MFCC(Mel Frequency Cepstral Coefficient：https://github.com/jameslyons/python_speech_features)方法从视频中提取声音信号，然后使用VGGish(https://github.com/tensorflow/models/tree/master/research/audioset)对提取的声音信号在ActivityNet或者Baidu Highlight Detection数据集的正样本视频片段和采样后的负样本视频片段上微调得到实际使用的数据集中每个视频对应的声音特征f2，我们将MFCC+VGGish合并记为声音提取模块M2，输出的声音特征向量记为f2，二维特征向量大小为(T，l₂)。

2)得到前融合的输入

将提取得到的视频各个模态的低层次特征在类别维度直接进行级联，得到特征向量

作为前融合的输入，

的维度为

具体实施时，模态数n＝2；i＝1,2；

具体实施时，将f1和f2在类别维度级联，记为

的维度为(T，(l₁+l₂))，即为图像低层次特征和声音低层次特征进行前融合的结果；T为视频抽帧帧数。

3)使用与模态数相同个数的，由两个一维的卷积和激活层组成的神经网络Ci，分别学习各个模态的低层次特征信号的表示，得到各个模态的低层次特征信号编码，记作特征向量ai；

具体实施时，模态数相同个数n＝2，使用一维的卷积神经网络C1和C2分别学习图像和声音信号的时序上更高层次的表示，C1和C2均由两层1维卷积构成，分别得到图像信号编码表示a1，a1大小为(T,256)和声音信号编码a2，a2大小为(T,256)的特征向量。

4)构建前融合网络

使用前融合网络

融合视频的各个模态的低层次特征；

具体实施时，包括图像低层次特征和声音低层次特征，

的输入为向量

记为前融合网络，由两层1维卷积构成。得到前融合结果

大小为(T,n×256)，这里n为多模态特征的模态个数；n＝2。

5)将步骤3)得到的各个模态的低层次特征信号编码和步骤4)得到的前融合结果进行级联，得到结果记为

作为后融合网络CF(·)的输入；

具体实施时，将a1,a2和

级联得到

大小为(T,1024)，作为后融合网络CF(·)的输入。

6)后融合网络CF(·)由三层1维卷积构成，输出维度为(T,3)，T为视频的抽帧帧数；分别对应每帧视频作为被定位的动作开始(start)、过程(action)和结束(end)三个阶段的分数，将三个阶段的分数序列集合分别记为

三个集合分别对应曲线曲线Start(s)，曲线End(e)，和曲线Action(s)在时刻t＝1，2，3，…，T的概率。

7)通过筛选后融合网络CF(·)输出组成的分数-视频时序曲线中的峰值，使用特定算法来生成一定数量的候选定位片段。算法如下：

7.1)生成候选时间片段：

设当前帧时刻为t，将曲线Start(s)上分数高于设定值(如0.5)的点,以及满足

的点s筛选为集合{s|s_i>0.5}，这里s_i的取值范围为[0,1]。将曲线End(e)上分数高于设定值(0.5)的点，以及满足

的点e筛选为集合{e|e_i>0.5}。将两个集合间的点相互连接，根据不同段长度(视频中每个动作开始到结束时间可以是不一样的，段长度由start和end点确定)生成候选时间片段。

具体地，在图1的曲线图中，画一条0.5的线，如果当前帧时刻的分数是最大值或者大于0.5，即记录下来形成集合s；三条曲线形成三个集合；

7.2)对生成的每个候选时间片段进行线性插值，将候选时间片段统一为相同长度的一系列候选定位片段

8)构造神经网络CG(·)，使用卷积神经网络CG(·)为步骤7)生成的候选定位片段打分，得到每个视频的候选定位片段的评分。

构造神经网络CG(·)，CG(·)的输入为候选时间片段在CF(·)的第一个隐藏层中对应的特征片段，和经过插值为同样大小的可以代表每个候选段分数的特征。CG(·)的输出为候选时间片段的评分。

具体地，CG(·)的输入为C_m和步骤7)得到的

C_m为候选时间片段在经过CF(·)的第一个隐藏层(512，64，3，1,relu)以后的输出。CG(·)的输出为每个视频的候选定位片段的评分p_i。评分为[0,1]的一个值，表示这一段动作的置信度(即这一段确实是动作的概率)。

9)使用非极大化抑制算法对结果进行后处理，从

中去除重复区域。

具体实施时，使用非极大化抑制soft-NMS算法来抑制重叠结果，对应图1中PP(·)操作。

通过上述步骤，实现种基于特征融合的视频内容定位。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于特征融合的视频内容定位方法，通过使用前后融合和级联学习技术，进行视频的特征提取、特征融合、内容定位；前融合将各个维度的低层次特征级联后通过神经网络

进行融合；后融合网络CF(·)将神经网络C₁，C₂，…C_i，

的输出进行拼接，再通过神经网络CF(·)，对视频各个维度的高层语义特征进行融合，提高了视频内容定位技术的准确率。本发明具体实施时，在Video Highlights数据集上将现有方法平均精度均值提高了10.54％。

附图说明

图1为本发明提供的视频内容定位方法的系统框架示意图。

图2为本发明实施例提供的视频内容定位方法的流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于特征融合的视频内容定位方法，基于特征前后融合和级联学习，使用级联的神经网络来进行视频的特征提取、特征融合、内容定位，能够解决视频图像和声音中包含的互补的高层语义信息丢失的问题，实现视频内容的精准定位。

如图1所示，采用本发明所述基于特征前后融合和级联学习的视频内容定位方法，对视频进行精准定位。视频包括多个模态的特征，如图像、声音和光流等,假设本次只使用声音和RGB图像两种模态，故以下n均为2；具体实施包括如下步骤：

1)提取视频各个模态的低层次特征，如图像特征、声音特征和光流特征等，此处以图像特征和声音特征为例；

1.1)预训练视频分类器，作为视频图像特征提取模块M1；

具体实施时，对于RGB图片，首先使用工具ffmepeg抽取视频帧，将视频转化为多帧图片。记每个视频抽帧帧数为T。在UCF101数据集的训练集上抽好图片帧后，使用TSN模型(文献“L.Wang,Y.Xiong,Z.Wang,Y.Qiao,D.Lin,X.Tang,and L.Van Gool.Temporalsegment networks:Towards good practices for deep action recognition.InEuropean Conference on Computer Vision,pages”)结构预训练一个视频分类器，将预训练好的TSN视频分类器作为RGB图像特征提取模块M1。然后将TSN最后线性层finetune为实际使用的数据集动作类别数(假设为m)，将模型最后输出的特征向量记为f1，二维特征向量大小为：(T，l₁)，其中T指的是提取的特征的时序长度，这里为512，l₁的值是1024，指的是提取的每一帧的向量维度。。

1.2)训练声音特征提取器M2；

使用MFCC(Mel Frequency Cepstral Coefficents：https://github.com/jameslyons/python_speech_features)方法从视频中提取声音信号，然后使用VGGish(https://github.com/tensorflow/models/tree/master/research/audioset)网络对提取的声音信号在ActivityNe或者BaiduHighlightDetection数据集的正样本和采样后的负样本上微调得到实际使用的数据集中每个视频对应的声音特征f2，我们将MFCC+VGGish合并记为声音提取模块M2，输出的声音特征向量记为f2，二维特征向量大小为(T，l₂)，其中T指的是提取的特征的时序长度，这里为512，l₂的值是1024，指的是提取的每一帧的向量维度。

2)将f1和f2在类别维度级联，记为

的维度为(T，(l₁+l₂))。

3)构造n+1个卷积神经网络。神经网络的隐藏层的结构使用四元组表示为(输入通道数，输出通道数，卷积核尺寸，卷积核步数，激活函数)。

3.1)前i个神经网络C_i的输入为f_i，C_i的网络结构为：输入fi–conv1d(l_i，512,3,1,relu)–conv1d(512，256,3,1,relu)-输出ai。这里i的取值为{1，2}

3.2)第n+1个卷积神经网络

的输入为f₁，f₂，…，f_i拼接成的向量，

的网络结构为：输入

-conv1d(

512*n，3，1,relu)-conv1d(512*n，256*n，3，1,relu)-输出

这个神经网络第一次融合了视频i个不同模态的特征，即为前融合网络。

4)构造卷积神经网络CF(·)，CF的输入为a₁，a₂…a_i，

的输出拼接成的向量。CF(·)的网络结构为：输入-conv1d(256*(2n)，1024，3，1，relu)-conv1d(1024，64，3，1，relu)-conv1d(512，3，3，1，sigmiod)-输出。CF(·)将视频各模态特征信息高层语义的特征表示已经前融合的结果进行了融合，即为后融合。

CF(·)的输出为视频每帧作为被定位的动作开始、过程和结束阶段的评分。将动作开始评分在时间维度上连接成曲线Start({s})，将动作结束评分在时间维度上连接成曲线End({e})。将曲线Start({s})上分数高于0.5*最大值的点筛选为集合{s|s_i>0.5}。将曲线End(e)上分数高于0.5*最大值的点筛选为集合{e|e_i>0.5}。将两个集合间的点相互连接，生成候选时间片段。具体来说，首先计算start节点和end节点中间的action长度l_a(帧数)，然后在start节点前后采样

在end节点前后采样

将这三个片段拼接起来形成候选时间片段。之后对每个时间片段进行线性插值，将时间片段统一为相同长度。具体来说，对开始，过程，结束三个时间片段在三个曲线上按照41，82，41三种不同特征长度进行线性插值，得到总长度为164的特征片段

5)构造神经网络CG(·)，CG(·)的输入为候选时间片段在CF(·)的第一个隐藏层(512，64，3，1,relu)中对应的特征片段Cm，和经过插值整理为同样大小的可以代表每个候选段分数的特征

CG(·)的输出为候选时间片段的评分。这里CG(·)对应的操作是：输入Cm-conv1d(64，16，3，1，relu)-reshape(num_proposal*batch_size，164*16)-fc(2624,1)-

其中num_proposal为候选段的数量，batch_size为训练的batch大小，fc表示全连接层，输出一个

最终

6)使用非极大化抑制对结果进行后处理，从结果中去除重复区域。这里我们使用soft-NMS算法(Improving Object Detection With One Line of Code)来抑制重叠结果。对应图1中PP(·)操作。以下是soft-NMS的算法流程：

Input：B＝{b_i,…,b_N},S＝{S₁,…,S_i,…,S_N}。B是所有候选时间片段，S是时间片段对应的分数。

IOU表示交并比，IOU越大，候选段重复度越高。M表示S集合中数值最大的数对应的下标，假设对应下标为m，则M＝b_m。S_M和b_M分别是S中分数最大的值以及这个值对应的候选段。对于s_i←s_if(iou(M,b_i))，

在传统的NMS算法中，直接设定一个阈值，IOU大于该阈值则过滤掉较小的框，相当于对S_i直接清零，而这样做会使得有重叠的多个动作段识别错误。文献(Soft-NMS--Improving Object Detection With One Line of Code)https://arxiv.org/abs/1704.04503)对上述方法进行改进。本发明采用改进的NMS算法，使得分数S_i不完全为0，而等于一个比较小的值。具体地，本发明采用的算法伪代码如下：

所描述的视频内容定位技术使用了前后融合和级联学习，充分利用了视频不同模态的特征来定位视频内容。

本发明提出的前后融合技术可以应用于视频的多个模态的特征，包括但不限于图像、声音和光流等。前后融合技术的含义包括前融合和后融合：前融合主要对视频各个模态的低层次特征进行融合，方法为将各个低层次特征拼接以后通过神经网络

来进行融合；后融合主要对视频各个模态的高层语义特征进行融合，方法为将神经网络C₁，C₂…C_i，

的输出进行拼接，然后通过神经网络CF(·)来进行融合。

本发明提出的级联学习技术将视频内容定位的过程分为了多个步骤。如图1中所示，G1阶段从视频的各个模态中提取出了高层语义特征并进行了融合。使用G1阶段中神经网络CF(·)的第一个隐藏层(512，64，3，1)的向量作为视频最终的特征向量，并传递给后级神经网络CG(·)使用，这使得神经网络的信息传递与利用更加灵活。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。