CN112115832A - 一种多模态特征融合的视频时序事件检测方法及系统 - Google Patents
一种多模态特征融合的视频时序事件检测方法及系统 Download PDFInfo
- Publication number
- CN112115832A CN112115832A CN202010948905.7A CN202010948905A CN112115832A CN 112115832 A CN112115832 A CN 112115832A CN 202010948905 A CN202010948905 A CN 202010948905A CN 112115832 A CN112115832 A CN 112115832A
- Authority
- CN
- China
- Prior art keywords
- video
- optical flow
- features
- audio
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims description 24
- 230000004927 fusion Effects 0.000 title claims description 17
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000003287 optical effect Effects 0.000 claims description 47
- 238000000605 extraction Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 14
- 230000002123 temporal effect Effects 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种多模态特征融合的视频时序事件检测方法及系统,将视频的光流特征、视频流特征以及音频特征进行融合获得多模态联合特征,使用多模态联合特征进行视频时序事件的检测及视频事件类别的分类。将多个模态的信息一起映射到一个统一的多模态向量空间,利用多模态之间的互补性,剔除了模型间的冗余,从而学习更好的特征,利用该特征进行视频时序事件的检测,可帮助大幅缩短人工审核的时间。
Description
技术领域
本发明实施例涉及计算机视觉技术领域,具体涉及一种多模态特征融合的视频时序事件检测方法及系统。
背景技术
视频事件检测成为近年来计算机视觉领域的研究热点和难点,随着计算机技术、存储技术和网络技术的高速发展以及各种数码设备和移动终端设备的不断更新,视频数据量以爆炸式速度不断增长。当前的技术的瓶颈以及面临的挑战主要包括了背景、光照、视角、运动速度、运动轨迹等多样性干扰。而当前学术领域主要是对简单的具体事件的检测识别,比如说简单的动作识别、拍打篮球、挥动手势等简单的场景,不符合生活或者工业的复杂场景。而通过人工浏览审核视频方式去识别视频中包含的事件,则需要耗费大量的时间和精力。
发明内容
为此,本发明实施例提供一种多模态特征融合的视频时序事件检测方法及系统,以解决现有的人工浏览审核视频方式去识别视频中包含的事件,需要耗费大量的时间和精力的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面,提出了一种多模态特征融合的视频时序事件检测方法,所述方法包括:
对原始视频文件进行光流信息的提取获得光流图,根据所述光流图获取视频的光流特征;
对原始视频文件进行视频流特征提取获取视频的视频流特征;
对原始视频文件的原始音频数据进行音频特征提取获取视频的音频特征;
将所述光流特征、视频流特征以及音频特征进行融合获得多模态联合特征;
使用所述多模态联合特征进行视频时序事件的检测及视频事件类别的分类。
进一步地,所述方法还包括:
对原始视频文件进行预处理,包括对视频进行抽帧以及对长视频进行段落切分,对长视频进行段落切分具体包括通过图像直方图进行动作或事件段落切分。
进一步地,所述方法还包括:
根据所述光流图通过光流模型获取视频的光流特征。
进一步地,所述方法还包括:
通过视频检测模型获取视频的视频流特征,所述视频检测模型包括I3D模型、C3D模型。
进一步地,所述方法还包括:
通过音频分析模型获取视频的音频特征,所述音频分析模型包括VGGish模型。
进一步地,进行视频流特征提取时,所述方法还包括:
通过全卷积方式提取全部视频帧的特征,特征序列的长度N与视频帧数T的关系为N=floor(T/8)。
根据本发明实施例的第二方面,提出了一种多模态特征融合的视频时序事件检测系统,所述系统包括:
光流特征提取模块,用于对原始视频文件进行光流信息的提取获得光流图,根据所述光流图获取视频的光流特征;
视频流特征提取模块,用于对原始视频文件进行视频流特征提取获取视频的视频流特征;
音频特征提取模块,用于对原始视频文件的原始音频数据进行音频特征提取获取视频的音频特征;
多模态特征融合模块,用于将所述光流特征、视频流特征以及音频特征进行融合获得多模态联合特征;
视频事件检测模块,用于使用所述多模态联合特征进行视频时序事件的检测及视频事件类别的分类。
根据本发明实施例的第三方面,提出了一种计算机存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被一种多模态特征融合的视频时序事件检测系统执行如上任一项所述的一种多模态特征融合的视频时序事件检测方法。
本发明实施例具有如下优点:
本发明实施例提出的一种多模态特征融合的视频时序事件检测方法及系统,将视频的光流特征、视频流特征以及音频特征进行融合获得多模态联合特征,使用多模态联合特征进行视频时序事件的检测及视频事件类别的分类。将多个模态的信息一起映射到一个统一的多模态向量空间,利用多模态之间的互补性,剔除了模型间的冗余,从而学习更好的特征,利用该特征进行视频时序事件的检测,可帮助大幅缩短人工审核的时间。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例1提供的一种多模态特征融合的视频时序事件检测方法的流程示意图;
图2为本发明实施例2提供的一种多模态特征融合的视频时序事件检测系统的结构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例1提出了一种多模态特征融合的视频时序事件检测方法,如图1所述,方法包括:
S110、对原始视频文件进行光流信息的提取获得光流图,根据光流图获取视频的光流特征。
视频由很多帧图像构成,在进行特征提取前,该方法还包括对原始视频文件进行预处理,包括对视频进行抽帧,如按FPS=15抽帧,以及对长视频进行段落切分,对长视频进行段落切分具体包括通过图像直方图进行动作或事件段落切分,该部分是为了之后可以根据帧数获取对应时间段行为,例如30分钟的影视剧,0-1分钟是单摄像头所采集的打电话事件,那么抽到的帧数图像帧数为0-900(15*60秒)帧进行预测动作事件,最后可以通过这个帧数推理出行为所对应的时间是0-60秒。
光流信息的提取可以由TV-L1算法或者FlowNet得到。进一步地,该方法还包括:根据光流图通过光流模型获取视频的光流特征。
S120、对原始视频文件进行视频流特征提取获取视频的视频流特征。将视频经过处理的帧送入到视频检测模型,视频流特征。进一步地,该方法还包括:通过视频检测模型获取视频的视频流特征,视频检测模型包括I3D模型、C3D模型等,不用做具体限制。
进一步地,进行视频流特征提取时,该方法还包括:如按FPS=15抽帧,通过全卷积方式提取全部视频帧的特征,特征序列的长度N与视频帧数T的关系为N=floor(T/8)。
S130、对原始视频文件的原始音频数据进行音频特征提取获取视频的音频特征。进一步地,该方法还包括:通过音频分析模型获取视频的音频特征,音频分析模型包括VGGish模型,提取到对应每帧的音频特征。
S140、将光流特征、视频流特征以及音频特征进行融合获得多模态联合特征。得到了视频采集帧的光流特征、音频特征以及视频流特征,将三种特征做融合,使用的联合表示形式,如光流特征为128-d,视频流特征为256-d,音频特征为128-d,即构成一个512-d的联合特征表示。
S150、使用多模态联合特征进行视频时序事件的检测及视频事件类别的分类。
本发明实施例提出的一种多模态特征融合的视频时序事件检测方法,将视频的光流特征、视频流特征以及音频特征进行融合获得多模态联合特征,使用多模态联合特征进行视频时序事件的检测及视频事件类别的分类。将多个模态的信息一起映射到一个统一的多模态向量空间,利用多模态之间的互补性,剔除了模型间的冗余,从而学习更好的特征,利用该特征进行视频时序事件的检测,可帮助大幅缩短人工审核的时间。
与上述实施例1相对应的,本发明实施例2提出了一种多模态特征融合的视频时序事件检测系统,该系统包括:
光流特征提取模块210,用于对原始视频文件进行光流信息的提取获得光流图,根据光流图获取视频的光流特征;
视频流特征提取模块220,用于对原始视频文件进行视频流特征提取获取视频的视频流特征;
音频特征提取模块230,用于对原始视频文件的原始音频数据进行音频特征提取获取视频的音频特征;
多模态特征融合模块240,用于将光流特征、视频流特征以及音频特征进行融合获得多模态联合特征;
视频事件检测模块250,用于使用多模态联合特征进行视频时序事件的检测及视频事件类别的分类。
本发明实施例提供的一种多模态特征融合的视频时序事件检测系统中各模块所执行的功能均已在上述实施例1中做了详细介绍,因此这里不做过多赘述。
本发明实施例提出的一种多模态特征融合的视频时序事件检测系统,将视频的光流特征、视频流特征以及音频特征进行融合获得多模态联合特征,使用多模态联合特征进行视频时序事件的检测及视频事件类别的分类。将多个模态的信息一起映射到一个统一的多模态向量空间,利用多模态之间的互补性,剔除了模型间的冗余,从而学习更好的特征,利用该特征进行视频时序事件的检测,可帮助大幅缩短人工审核的时间。
与上述实施例相对应的,本发明实施例3提出了一种计算机存储介质,该计算机存储介质中包含一个或多个程序指令,一个或多个程序指令用于被一种多模态特征融合的视频时序事件检测系统执行如上一种多模态特征融合的视频时序事件检测方法中的任一方法步骤。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (8)
1.一种多模态特征融合的视频时序事件检测方法,其特征在于,所述方法包括:
对原始视频文件进行光流信息的提取获得光流图,根据所述光流图获取视频的光流特征;
对原始视频文件进行视频流特征提取获取视频的视频流特征;
对原始视频文件的原始音频数据进行音频特征提取获取视频的音频特征;
将所述光流特征、视频流特征以及音频特征进行融合获得多模态联合特征;
使用所述多模态联合特征进行视频时序事件的检测及视频事件类别的分类。
2.根据权利要求1所述的一种多模态特征融合的视频时序事件检测方法,其特征在于,所述方法还包括:
对原始视频文件进行预处理,包括对视频进行抽帧以及对长视频进行段落切分,对长视频进行段落切分具体包括通过图像直方图进行动作或事件段落切分。
3.根据权利要求1所述的一种多模态特征融合的视频时序事件检测方法,其特征在于,所述方法还包括:
根据所述光流图通过光流模型获取视频的光流特征。
4.根据权利要求1所述的一种多模态特征融合的视频时序事件检测方法,其特征在于,所述方法还包括:
通过视频检测模型获取视频的视频流特征,所述视频检测模型包括I3D模型、C3D模型。
5.根据权利要求1所述的一种多模态特征融合的视频时序事件检测方法,其特征在于,所述方法还包括:
通过音频分析模型获取视频的音频特征,所述音频分析模型包括VGGish模型。
6.根据权利要求1所述的一种多模态特征融合的视频时序事件检测方法,其特征在于,进行视频流特征提取时,所述方法还包括:
通过全卷积方式提取全部视频帧的特征,特征序列的长度N与视频帧数T的关系为N=floor(T/8)。
7.一种多模态特征融合的视频时序事件检测系统,其特征在于,所述系统包括:
光流特征提取模块,用于对原始视频文件进行光流信息的提取获得光流图,根据所述光流图获取视频的光流特征;
视频流特征提取模块,用于对原始视频文件进行视频流特征提取获取视频的视频流特征;
音频特征提取模块,用于对原始视频文件的原始音频数据进行音频特征提取获取视频的音频特征;
多模态特征融合模块,用于将所述光流特征、视频流特征以及音频特征进行融合获得多模态联合特征;
视频事件检测模块,用于使用所述多模态联合特征进行视频时序事件的检测及视频事件类别的分类。
8.一种计算机存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被一种多模态特征融合的视频时序事件检测系统执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010948905.7A CN112115832A (zh) | 2020-09-10 | 2020-09-10 | 一种多模态特征融合的视频时序事件检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010948905.7A CN112115832A (zh) | 2020-09-10 | 2020-09-10 | 一种多模态特征融合的视频时序事件检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112115832A true CN112115832A (zh) | 2020-12-22 |
Family
ID=73803571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010948905.7A Pending CN112115832A (zh) | 2020-09-10 | 2020-09-10 | 一种多模态特征融合的视频时序事件检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115832A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906624A (zh) * | 2021-03-12 | 2021-06-04 | 合肥工业大学 | 一种基于音视频多模态时序预测的视频数据特征提取方法 |
CN113592251A (zh) * | 2021-07-12 | 2021-11-02 | 北京师范大学 | 一种多模态融合的教态分析系统 |
WO2023050295A1 (zh) * | 2021-09-30 | 2023-04-06 | 中远海运科技股份有限公司 | 一种基于多模态异质特征融合的视频密集事件描述方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN110674350A (zh) * | 2019-09-23 | 2020-01-10 | 网易(杭州)网络有限公司 | 视频人物检索方法、介质、装置和计算设备 |
-
2020
- 2020-09-10 CN CN202010948905.7A patent/CN112115832A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN110674350A (zh) * | 2019-09-23 | 2020-01-10 | 网易(杭州)网络有限公司 | 视频人物检索方法、介质、装置和计算设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906624A (zh) * | 2021-03-12 | 2021-06-04 | 合肥工业大学 | 一种基于音视频多模态时序预测的视频数据特征提取方法 |
CN112906624B (zh) * | 2021-03-12 | 2022-09-13 | 合肥工业大学 | 一种基于音视频多模态时序预测的视频数据特征提取方法 |
CN113592251A (zh) * | 2021-07-12 | 2021-11-02 | 北京师范大学 | 一种多模态融合的教态分析系统 |
CN113592251B (zh) * | 2021-07-12 | 2023-04-14 | 北京师范大学 | 一种多模态融合的教态分析系统 |
WO2023050295A1 (zh) * | 2021-09-30 | 2023-04-06 | 中远海运科技股份有限公司 | 一种基于多模态异质特征融合的视频密集事件描述方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112115832A (zh) | 一种多模态特征融合的视频时序事件检测方法及系统 | |
CN112560999B (zh) | 一种目标检测模型训练方法、装置、电子设备及存储介质 | |
US8374393B2 (en) | Foreground object tracking | |
CN108805900B (zh) | 一种跟踪目标的确定方法及装置 | |
CN111951212A (zh) | 对铁路的接触网图像进行缺陷识别的方法 | |
US20130322740A1 (en) | Method of Automatically Training a Classifier Hierarchy by Dynamic Grouping the Training Samples | |
CN110688925A (zh) | 基于深度学习的级联目标识别方法及系统 | |
CN110852190B (zh) | 一种融合目标检测与手势识别的驾驶行为识别方法及系统 | |
CN111260666B (zh) | 图像处理方法及装置、电子设备、计算机可读存储介质 | |
EP2474163A2 (en) | Foreground object detection in a video surveillance system | |
CN111881741A (zh) | 车牌识别方法、装置、计算机设备和计算机可读存储介质 | |
CN112818805A (zh) | 一种基于特征融合的细粒度车辆属性分析系统及方法 | |
CN113191216A (zh) | 基于姿态识别和c3d网络的多人实时动作识别方法和系统 | |
CN111126112B (zh) | 候选区域确定方法和装置 | |
CN113486856A (zh) | 一种基于语义分割和卷积神经网络的驾驶员不规范行为检测方法 | |
CN110490118A (zh) | 图像处理方法及装置 | |
CN113992944A (zh) | 视频编目方法、装置、设备、系统及介质 | |
CN110969173A (zh) | 目标分类方法及装置 | |
CN116630866B (zh) | 音视频雷达融合的异常事件监控方法、装置、设备及介质 | |
CN112016434A (zh) | 一种基于注意力机制3d残差网络的镜头运动识别方法 | |
CN116186330A (zh) | 一种基于多模态学习的视频去重方法及装置 | |
CN110443248B (zh) | 大幅遥感影像语义分割分块效应消除方法及系统 | |
CN113239931A (zh) | 一种物流站车牌识别的方法 | |
CN113361475A (zh) | 一种基于多阶段特征融合信息复用的多光谱行人检测方法 | |
CN113496176A (zh) | 动作识别方法、装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |