CN112115832A

CN112115832A - 一种多模态特征融合的视频时序事件检测方法及系统

Info

Publication number: CN112115832A
Application number: CN202010948905.7A
Authority: CN
Inventors: 宁宇鹏
Original assignee: Beijing Moviebook Technology Corp ltd
Current assignee: Beijing Moviebook Technology Corp ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2020-12-22

Abstract

本发明实施例公开了一种多模态特征融合的视频时序事件检测方法及系统，将视频的光流特征、视频流特征以及音频特征进行融合获得多模态联合特征，使用多模态联合特征进行视频时序事件的检测及视频事件类别的分类。将多个模态的信息一起映射到一个统一的多模态向量空间，利用多模态之间的互补性，剔除了模型间的冗余，从而学习更好的特征，利用该特征进行视频时序事件的检测，可帮助大幅缩短人工审核的时间。

Description

一种多模态特征融合的视频时序事件检测方法及系统

技术领域

本发明实施例涉及计算机视觉技术领域，具体涉及一种多模态特征融合的视频时序事件检测方法及系统。

背景技术

视频事件检测成为近年来计算机视觉领域的研究热点和难点，随着计算机技术、存储技术和网络技术的高速发展以及各种数码设备和移动终端设备的不断更新，视频数据量以爆炸式速度不断增长。当前的技术的瓶颈以及面临的挑战主要包括了背景、光照、视角、运动速度、运动轨迹等多样性干扰。而当前学术领域主要是对简单的具体事件的检测识别，比如说简单的动作识别、拍打篮球、挥动手势等简单的场景，不符合生活或者工业的复杂场景。而通过人工浏览审核视频方式去识别视频中包含的事件，则需要耗费大量的时间和精力。

发明内容

为此，本发明实施例提供一种多模态特征融合的视频时序事件检测方法及系统，以解决现有的人工浏览审核视频方式去识别视频中包含的事件，需要耗费大量的时间和精力的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面，提出了一种多模态特征融合的视频时序事件检测方法，所述方法包括：

对原始视频文件进行光流信息的提取获得光流图，根据所述光流图获取视频的光流特征；

对原始视频文件进行视频流特征提取获取视频的视频流特征；

对原始视频文件的原始音频数据进行音频特征提取获取视频的音频特征；

将所述光流特征、视频流特征以及音频特征进行融合获得多模态联合特征；

使用所述多模态联合特征进行视频时序事件的检测及视频事件类别的分类。

进一步地，所述方法还包括：

对原始视频文件进行预处理，包括对视频进行抽帧以及对长视频进行段落切分，对长视频进行段落切分具体包括通过图像直方图进行动作或事件段落切分。

进一步地，所述方法还包括：

根据所述光流图通过光流模型获取视频的光流特征。

进一步地，所述方法还包括：

通过视频检测模型获取视频的视频流特征，所述视频检测模型包括I3D模型、C3D模型。

进一步地，所述方法还包括：

通过音频分析模型获取视频的音频特征，所述音频分析模型包括VGGish模型。

进一步地，进行视频流特征提取时，所述方法还包括：

通过全卷积方式提取全部视频帧的特征，特征序列的长度N与视频帧数T的关系为N＝floor(T/8)。

根据本发明实施例的第二方面，提出了一种多模态特征融合的视频时序事件检测系统，所述系统包括：

光流特征提取模块，用于对原始视频文件进行光流信息的提取获得光流图，根据所述光流图获取视频的光流特征；

视频流特征提取模块，用于对原始视频文件进行视频流特征提取获取视频的视频流特征；

音频特征提取模块，用于对原始视频文件的原始音频数据进行音频特征提取获取视频的音频特征；

多模态特征融合模块，用于将所述光流特征、视频流特征以及音频特征进行融合获得多模态联合特征；

视频事件检测模块，用于使用所述多模态联合特征进行视频时序事件的检测及视频事件类别的分类。

根据本发明实施例的第三方面，提出了一种计算机存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种多模态特征融合的视频时序事件检测系统执行如上任一项所述的一种多模态特征融合的视频时序事件检测方法。

本发明实施例具有如下优点：

本发明实施例提出的一种多模态特征融合的视频时序事件检测方法及系统，将视频的光流特征、视频流特征以及音频特征进行融合获得多模态联合特征，使用多模态联合特征进行视频时序事件的检测及视频事件类别的分类。将多个模态的信息一起映射到一个统一的多模态向量空间，利用多模态之间的互补性，剔除了模型间的冗余，从而学习更好的特征，利用该特征进行视频时序事件的检测，可帮助大幅缩短人工审核的时间。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种多模态特征融合的视频时序事件检测方法的流程示意图；

图2为本发明实施例2提供的一种多模态特征融合的视频时序事件检测系统的结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例1提出了一种多模态特征融合的视频时序事件检测方法，如图1所述，方法包括：

S110、对原始视频文件进行光流信息的提取获得光流图，根据光流图获取视频的光流特征。

视频由很多帧图像构成，在进行特征提取前，该方法还包括对原始视频文件进行预处理，包括对视频进行抽帧，如按FPS＝15抽帧，以及对长视频进行段落切分，对长视频进行段落切分具体包括通过图像直方图进行动作或事件段落切分，该部分是为了之后可以根据帧数获取对应时间段行为，例如30分钟的影视剧，0-1分钟是单摄像头所采集的打电话事件，那么抽到的帧数图像帧数为0-900(15*60秒)帧进行预测动作事件，最后可以通过这个帧数推理出行为所对应的时间是0-60秒。

光流信息的提取可以由TV-L1算法或者FlowNet得到。进一步地，该方法还包括：根据光流图通过光流模型获取视频的光流特征。

S120、对原始视频文件进行视频流特征提取获取视频的视频流特征。将视频经过处理的帧送入到视频检测模型，视频流特征。进一步地，该方法还包括：通过视频检测模型获取视频的视频流特征，视频检测模型包括I3D模型、C3D模型等，不用做具体限制。

进一步地，进行视频流特征提取时，该方法还包括：如按FPS＝15抽帧，通过全卷积方式提取全部视频帧的特征，特征序列的长度N与视频帧数T的关系为N＝floor(T/8)。

S130、对原始视频文件的原始音频数据进行音频特征提取获取视频的音频特征。进一步地，该方法还包括：通过音频分析模型获取视频的音频特征，音频分析模型包括VGGish模型，提取到对应每帧的音频特征。

S140、将光流特征、视频流特征以及音频特征进行融合获得多模态联合特征。得到了视频采集帧的光流特征、音频特征以及视频流特征，将三种特征做融合，使用的联合表示形式，如光流特征为128-d，视频流特征为256-d，音频特征为128-d，即构成一个512-d的联合特征表示。

S150、使用多模态联合特征进行视频时序事件的检测及视频事件类别的分类。

本发明实施例提出的一种多模态特征融合的视频时序事件检测方法，将视频的光流特征、视频流特征以及音频特征进行融合获得多模态联合特征，使用多模态联合特征进行视频时序事件的检测及视频事件类别的分类。将多个模态的信息一起映射到一个统一的多模态向量空间，利用多模态之间的互补性，剔除了模型间的冗余，从而学习更好的特征，利用该特征进行视频时序事件的检测，可帮助大幅缩短人工审核的时间。

与上述实施例1相对应的，本发明实施例2提出了一种多模态特征融合的视频时序事件检测系统，该系统包括：

光流特征提取模块210，用于对原始视频文件进行光流信息的提取获得光流图，根据光流图获取视频的光流特征；

视频流特征提取模块220，用于对原始视频文件进行视频流特征提取获取视频的视频流特征；

音频特征提取模块230，用于对原始视频文件的原始音频数据进行音频特征提取获取视频的音频特征；

多模态特征融合模块240，用于将光流特征、视频流特征以及音频特征进行融合获得多模态联合特征；

视频事件检测模块250，用于使用多模态联合特征进行视频时序事件的检测及视频事件类别的分类。

本发明实施例提供的一种多模态特征融合的视频时序事件检测系统中各模块所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

本发明实施例提出的一种多模态特征融合的视频时序事件检测系统，将视频的光流特征、视频流特征以及音频特征进行融合获得多模态联合特征，使用多模态联合特征进行视频时序事件的检测及视频事件类别的分类。将多个模态的信息一起映射到一个统一的多模态向量空间，利用多模态之间的互补性，剔除了模型间的冗余，从而学习更好的特征，利用该特征进行视频时序事件的检测，可帮助大幅缩短人工审核的时间。

与上述实施例相对应的，本发明实施例3提出了一种计算机存储介质，该计算机存储介质中包含一个或多个程序指令，一个或多个程序指令用于被一种多模态特征融合的视频时序事件检测系统执行如上一种多模态特征融合的视频时序事件检测方法中的任一方法步骤。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种多模态特征融合的视频时序事件检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种多模态特征融合的视频时序事件检测方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的一种多模态特征融合的视频时序事件检测方法，其特征在于，所述方法还包括：

根据所述光流图通过光流模型获取视频的光流特征。

4.根据权利要求1所述的一种多模态特征融合的视频时序事件检测方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的一种多模态特征融合的视频时序事件检测方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的一种多模态特征融合的视频时序事件检测方法，其特征在于，进行视频流特征提取时，所述方法还包括：

7.一种多模态特征融合的视频时序事件检测系统，其特征在于，所述系统包括：

8.一种计算机存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种多模态特征融合的视频时序事件检测系统执行如权利要求1-6任一项所述的方法。