CN117115906A - 一种基于上下文聚合和边界生成的时序行为检测方法 - Google Patents
一种基于上下文聚合和边界生成的时序行为检测方法 Download PDFInfo
- Publication number
- CN117115906A CN117115906A CN202311004570.3A CN202311004570A CN117115906A CN 117115906 A CN117115906 A CN 117115906A CN 202311004570 A CN202311004570 A CN 202311004570A CN 117115906 A CN117115906 A CN 117115906A
- Authority
- CN
- China
- Prior art keywords
- boundary
- feature
- context
- time sequence
- nomination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002776 aggregation Effects 0.000 title claims abstract description 27
- 238000004220 aggregation Methods 0.000 title claims abstract description 27
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 230000005284 excitation Effects 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims 1
- 238000007906 compression Methods 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 11
- 230000007774 longterm Effects 0.000 abstract description 8
- 230000004931 aggregating effect Effects 0.000 abstract description 5
- 230000000295 complement effect Effects 0.000 abstract description 4
- 238000009826 distribution Methods 0.000 abstract description 2
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 44
- 230000002123 temporal effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 239000011151 fibre-reinforced plastic Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉和模式识别技术领域,具体涉及一种基于上下文聚合和边界生成的时序行为检测方法。本发明设计了一个多路径时序上下文特征聚合模块,用于有效的聚合长期和短期时间上下文信息,从而增强行为事件的上下文表示。其次,为了生成精确的行为边界,本发明设计了一个多分支时间边界检测器,利用两个边界检测器之间的互补关系优化预测结果。此外,为了准确预测密集分布提名的置信度,本发明设计了一个提名关系感知模块,利用全局相关性进行提名关系建模,增强了提名上下文的表达性和鲁棒性。本发明对于持续时间长和持续时间短的视频都能有效检测,可实现对行为边界的高召回率和高精度捕捉。
Description
技术领域
本发明属于计算机视觉和模式识别技术领域,具体涉及一种基于上下文聚合和边界生成的时序行为检测方法。
背景技术
近年来,随着科技与互联网的发展,人们通过视频传递信息变得越来越普遍,通过手机、电脑、监控都能够方便快速的录制视频,使得视频的数量呈现出爆炸式的增长趋势。因此,如何从海量视频中准确挖掘到所需要的信息成为当前视频理解的重要问题。时序行为检测任务的目的是在原始视频中定位出人们感兴趣的行为时间边界,并对该动作进行分类。该项技术可以广泛应用于视频监控、视频搜索与检索、自动驾驶、人机交互、视频内容推荐等,具有极大的研究意义和极高的实用价值。在社会安全方面,时序行为检测技术可以自动检测异常行为片段,使得能够及时发现并制止,减少人员伤亡和社会财产损失,大大减少警察工作量并提高效率。在视频检索方面,时序行为检测技术可以从海量视频中找到特定行为,智能生成精彩内容集锦,提高用户体验。此外,在互联网上每天都有海量视频被上传或转发,时序行为检测可以自动检索出暴力视频并及时删除,恢复和净化网络环境,避免未成年人被误导。
时序行为检测方法分为两个步骤:首先生成时序行为提名,然后再对提名进行分类。目前,现阶段主流的时序行为提名生成方法主要有两类:采用“自上而下”的方式和“自下而上”的方式。
其中,“自上而下”的方式是通过使用滑动窗口或均匀分布的锚点密集的生成大量的行为提名,但是,该方式由于固定长度段,在处理具有不同持续时间的行为实例时存在限制,缺乏灵活性。“自下而上”的方式是指基于边界的方法,首先对视频序列中每个时间位置的潜在行为概率进行评估,然后将其匹配以形成候选提名。但是该方式存在的问题是:1、基于局部信息提取时序特征,缺乏对全局和长期时序关系的建模以获取覆盖不同持续时间的行为实例特征。2、它主要依赖边界周围的浅层局部特征来预测行为边界,忽略了深层语义特征的捕获,导致生成的行为边界不够精确,限制了性能的提升。3、它在置信度评估中未考虑提名与提名之间的关系,无法获得足够的语义补充,从而导致性能低。
发明内容
本发明针对现有技术没有充分利用时序上下文特征,缺乏对全局和长期时序关系的建模,边界检测中缺乏深层语义特征捕获以及置信度评估中未考虑提名与提名之间关系,导致行为检测性能不够理想的问题,本发明提供了一种基于上下文聚合和边界生成的时序行为检测方法。
为实现上述目的,本发明的技术方案如下:一种基于上下文聚合和边界生成的时序行为检测方法,包括以下步骤:
步骤1、数据准备:数据集来源于通用时序行为检测数据集ActivityNet1.3和THUMOS14数据集;
步骤2、特征编码:采用two-stream网络提取输入视频的时空特征,生成RGB特征和光流特征,作为视频特征序列F;
步骤3、视频特征序列F输入到多路径时序上下文特征聚合模块,分别通过:
时间全局相关结构在整个视频输入特征上构建丰富的全局上下文信息,生成时间全局特征A;
长范围时间特征相关结构考虑长距离上下文特征的聚合,生成长范围时序特征B;
局部特征结构,通过卷积运算,生成局部特征C;
最后将3个特征进行融合,得到多路径时序上下文特征D;
步骤4、将多路径时序上下文特征D输入到多分支边界生成器中,分别通过多分支边界生成器中的浅层边界生成器和深层边界生成器生成两组边界概率序列P′s,P′e和P″s,P″e,融合生成最终的提名边界概率Ps和Pe;
步骤5、提名评估:将步骤3中多路径时序上下文特征D输入到提名评估模块中,生成提名匹配置信图,为密集分布的提名框提供置信度分数;
步骤6、后处理:融合步骤4生成的提名边界概率Ps、Pe和步骤5生成的提名匹配置信图,生成最终置信度分数,并基于最终的置信度分数采用Soft-NMS算法抑制冗余提名。
进一步的,上述步骤3中:
Ms(Fc)=σ(f([AvgPool(Fc);MaxPool(Fc)])) (2)
B=Activation(Fdilated-Causal(F)+Conv1D(F)) (4)
C=Conv(Conv(F)) (5)
进一步的,上述步骤4,具体为:浅层边界生成器由两个Conv1D卷积层组成,并使用sigmoid函数激活输出特征以生成开始点的概率P′s和结束点概率P′e;深层边界生成器设计为编码器-解码器U型结构,通过组合多尺度特征来生成精确的动作边界,并通过一系列的密集卷积块以跳跃连接方式融合相同尺度的编码器和解码器特征,最终使用sigmoid函数激活输出特征以生成开始点的概率P″s″和结束点概率P″e″,融合生成最终的提名边界概率Ps和Pe的公式为(7):
进一步的,上述步骤5中,对于输入的多路径时序上下文特征D,首先将其转化为边界匹配特征图,然后对其进行采样操作以获得提名匹配特征图P,之后通过提名评估中的提名关系感知模块融合相邻提名特征,最终采用Sigmoid函数得到提名匹配置信度图,分别用来分类和回归。
进一步的,提名关系感知模块是一种具有压缩激励块的残差模块变体,对于输入的特征图P首先通过输入特征层进行全局平均池化操作,然后,使用两个全连接层捕获通道之间的关系,在两个全连接之间设置GELU层,之后执行Sigmoid以将值固定在[0,1],获得输入特征层的每个通道的权重值,最后与输入特征图P相叠加得到最后的输出特征图。
与现有技术相比,本发明的有益效果:
1、本发明设计了一个多路径时序上下文特征聚合模块,用于有效的聚合长期和短期时间上下文信息,从而增强行为事件的上下文表示。具体为:1)由于时间全局信息与行为的类别有关,所以适应于行为分类的特征应该是具有判别性的,因此设计了一个时间全局相关结构,通过在整个视频输入特征上构建丰富的全局上下文信息,生成全局特征;2)对于长视频来说,长期的时间建模必不可少。为了使边界位置能够专注于聚合其所属的行为实例信息,并且同时考虑到长距离上下文的聚合,设计了一个长范围时间特征相关结构,用来捕获视频的长距离上下文,生成长范围时序特征;3)对于检测时间较短的视频来说,局部信息更为有效,设计了一个局部特征结构,通过卷积运算,生成局部特征。最终,将三种特征相结合,实现了对于持续时间长和持续时间短的视频都能有效检测的目的。
2、本发明设计了一个多分支时间边界检测器,由浅层和深层时间边界检测器组成,浅层时间边界生成器由卷积层组成,将深层时间边界生成器设计为U型结构。融入深层时间边界生成器后能够解决浅层时间边界生成器仅关注局部突变,而导致生成的行为边界具有较高召回率,但是精度不高的问题。同时,利用两个时间边界检测器之间的互补关系优化预测结果,判断两组开始关键点和结束关键点是否同时处于阈值或峰值处,将起点和终点配对以生成提名,从而实现对行为边界的高召回率和高精度捕捉。
3、本发明设计的深层时间边界生成器,是一个编码器—解码器的U型结构,包含编码器(下采样)、解码器(上采样)和跳跃连接。由于时间卷积层平均的处理每个通道中的特征,所以并非编码器所获得的所有特征都对边界概率预测有效,因此,在编码器中的每个时间卷积层后连接了一个自适应通道注意力模块,以增强在当前时间尺度上捕获关键特征的能力。此外,在解码器过程中,会丢失部分信息,为了解决此问题,我们连接了解码器的多尺度特征,以捕获细粒度细节和粗粒度语义,有效的提取更多信息,从而生成精确的行为边界。
4、本发明设计了一个提名关系感知模块,通过全局相关性进行提名关系建模,聚合相邻提名的上下文信息,同时区分稀疏提名之间的语义信息,有效地解决了现有方法通过卷积运算融合相邻提名,而导致融合后的提名缺乏区分性和丰富性的问题,增强了提名上下文的表达性和鲁棒性。
5、在两个通用时序行为提名生成和检测的大型数据集:ActivityNet1.3和THUMOS14数据集上进行了综合实验,本发明有效的提高了时序行为提名生成的性能,可以生成具有高精度和召回率的行为提名,进一步结合现有的动作分类器,也可以实现较好的时序行为检测性能,与目前先进的方法相比具有优越性。
附图说明
图1为本发明实施例中基于时序上下文聚合和多分支边界生成的时序行为检测网络MBGNet结构;
图2为本发明实施例中多路径时序上下文特征聚合模块结构图;
图3为本发明实施例中多分支边界生成器结构图;
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明公开一种基于上下文聚合和边界生成的时序行为检测方法,来提高时序行为提名生成和检测的性能。本发明设计了一个多路径时序上下文特征聚合模块,用于有效的聚合长期和短期时间上下文信息,从而增强行为事件的上下文表示。其次,为了生成精确的行为边界,本发明设计了一个多分支时间边界检测器,利用两个边界检测器之间的互补关系优化预测结果。此外,为了准确预测密集分布提名的置信度,本发明设计了一个提名关系感知模块,利用全局相关性进行提名关系建模,增强了提名上下文的表达性和鲁棒性。
参见图1,本发明提供的一种基于上下文聚合和边界生成的时序行为检测方法,包括以下步骤:
步骤1:数据准备。具体为:ActivityNe1.3数据集是一个用于通用时序行为提名生成和检测的大型数据集,1.3版本包含19994个未修剪视频,200个动作小类标注的视频,每个视频平均包含1.41个动作实体,总共视频时长高达849小时,按照2:1:1的比例分为测试集、验证集和训练集。THUMOS14数据集有1010个验证集视频和1574个测试集视频。对于行为提名或检测任务,包含验证集中的200个带注释的未剪辑视频和测试集中的213个带注释的未修剪视频,包含20个动作类别。
步骤2:特征编码。具体为:采用two-stream网络提取输入视频的时空特征,生成RGB特征和光流特征,作为视频序列F。
步骤3:视频特征序列F输入到多路径时序上下文特征聚合模块,分别生成时间全局特征A、长范围时序特征B和局部特征C,并将3个特征进行融合,得到多路径时序上下文特征D。具体实施为:
本发明设计的是三路径时序上下文特征聚合模块,参照图2。
因为时间全局信息与行为的类别有关,所以适应于动作分类的特征应该是具有判别性的,因此我们设计基于注意力机制的时间全局相关结构,通过在整个视频输入特征上构建丰富的全局上下文信息,生成全局特征A。具体地说,对于原始视频特征F,首先使用平均池化和最大池化操作来聚合特征图的空间信息,分别生成平均池化特征和最大池化特征,然后将这两个特征经过一个共享的多层感知器网络,并将结果进行逐元素求和后通过Sigmoid函数得到通道注意力特征图Mc(F)。将原始特征F与通道注意力特征图Mc(F)相乘,得到通道注意力特征Fc,然后,对通道注意力特征Fc在通道维度进行平均池化和最大池化操作,分别生成平均池化特征和最大池化特征,再通过标准卷积层将它们连接起来并卷积生成空间注意力特征图Ms(F)。最后,同时将通道注意力特征Fc与空间注意力特征特征图Ms(F)相乘后与原始特征F进行相加以获得包含全局信息的特征A。
Ms(Fc)=σ(f([AvgPool(Fc);MaxPool(Fc)])) (2)
对于长视频来说,长期的时间建模必不可少,为了使边界位置能够专注于聚合其所属的动作实例信息,并同时考虑到长距离上下文的聚合,我们设计了长范围时间特征相关结构来生成视频的长距离上下文特征B。具体地说,我们将视频特征序列F输入到长范围时间特征相关结构中,通过膨胀卷积操作扩大感受野,并在膨胀卷积基础上引入因果卷积,保证感受野覆盖了历史上的每个输入,并获得时间序列的长期记忆。此外,通过残差链接使信息能够跨层传输,避免梯度消失和梯度爆炸的问题,从而获得视频的长距离上下文特征B。
B=Activation(Fdilated-Causal(F)+Conv1D(F)) (4)
由于检测持续时间较短的视频时,局部信息更为有效,因此本发明通过对原始视频特征F进行Conv1D运算,生成局部特征C。
C=Conv(Conv(F)) (5)
总体地说,对于原始视频特征F,经过三路径时序上下文特征聚合模块,对于长视频,进行长范围时序特征建模,对于短视频,进行局部特征捕获,同时进行上下文时间全局特征特征的捕捉,从而有效的聚合了长期和短期上下文信息。将这3个特征进行融合,得到多路径时序上下文特征,从而实现对持续时间长和持续时间短的行为都能有效检测的目的。
步骤4:将多路径时序上下文特征D输入到多分支边界生成器中,分别通过浅层边界生成器和深层边界生成器生成两组边界概率序列P′s,P′e和P″s″,P″e″,利用两组边界概率序列之间的互补关系优化预测结果,判断两组开始关键点或结束关键点是否同时处于阈值或峰值处,进行融合生成最终的提名边界概率Ps和Pe,具体实施如下:
设计多分支边界生成器。多分支边界生成器包含浅层边界生成器和深层边界生成器。浅层边界生成器SBG由两个Conv1D卷积层组成,并使用sigmoid函数激活输出特征以生成开始点的概率和结束点的概率/>其中lv是时间位置的数量,/>是第n个时间位置是开始点的概率,/>是第n个时间位置是行为结束点的概率。同时,设计了一个编码器-解码器U型结构的深层边界生成器DBG,解决浅层边界生成器仅关注局部突变,导致生成的时间边界虽然具有较高召回率,但是精度不高的问题,深层边界生成器结构见图3(a)所示。
深层边界生成器通过组合多尺度特征来生成精确的动作边界,并通过一系列的密集卷积块以跳跃连接方式融合相同尺度的编码器和解码器特征,确保所有的先验知识都被积累,提高检测精度,还在编码器中每个时间卷积层后连接了一个自适应通道注意力ECA模块,以增强在当前时间尺度上捕获关键特征的能力,ECA模块的详细结构见图3(b)所示,首先进行全局平均池化以产生表示全局空间信息的张量,之后应用一维卷积层编码通道的相关性。
其中,编码器的节点xi,j计算公式为(6):
其中H(*)表示基本卷积单元对应的函数,随后是激活函数,p(*)表示下采样max-pooling,u(*)表示上采样转置卷积,[*]表示拼接函数。
深层边界生成器最终使用sigmoid函数激活输出特征以生成开始点的概率P″s和结束点概率P″e,融合生成最终的提名边界概率Ps和Pe的公式为(7):
步骤5:将多路径时序上下文特征输入到提名评估模块中,生成提名匹配置信图,为密集分布的提名框提供置信度分数。
在所述的提名评估模块中,设计了提名关系感知模块PRAM,用于聚集具有不同时间尺度和语义密度的相邻匹配。由于特征图中相邻匹配之间语义信息相似,融合后缺乏区分性和丰富性。因此本发明所提出的提名关系感知模块PRAM是一种具有压缩激励块的残差模块变体,自适应的调整特征映射的权重,提高通道之间的相互依赖性,使网络能够执行特征重新校准,增强特征区分能力,对于输入的C*D*T的特征图P首先通过输入特征层进行全局平均池化操作,然后,使用两个全连接(FC)层捕获通道之间的关系,并在两个全连接之间设置GELU层,之后执行Sigmoid以将值固定在[0,1],公式如下:
p′c=Fscale(pc,sc)=sc·pc (10)
M=pc+p′c (11)
获得输入特征层的每个通道的权重值,最后与输入特征图P相叠加得到最后的输出特征图。
步骤6:后处理:融合步骤4生成的提名边界概率Ps和Pe和步骤5生成的提名边界匹配置信图,生成最终置信度分数,并基于最终的置信度分数采用Soft-NMS算法抑制冗余提名。
ActivityNet1.3上的性能比较结果如表1所示,本发明提出的MBGNet与最新方法进行比较,具有较高的召回率和AUC值,证明了MBGNet在ActivityNet1.3上的有效性。
表1在ActivityNet-1.3数据集上,本发明方法与其他生成方法性能比较
MBGNet在THUMOS14上的性能比较结果如表2所示,本发明所提出的MBGNet与最新方法进行比较,表现出较高的召回率,表明了MBGNet在THUMOS14上显著提高了时序行为提名生成的性能。
表2在THUMOS14数据集上,本发明方法与其他生成方法性能比较
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种基于上下文聚合和边界生成的时序行为检测方法,其特征在于:包括以下步骤:
步骤1、数据准备:数据集来源于通用时序行为检测数据集ActivityNet1.3和THUMOS14数据集;
步骤2、特征编码:采用two-stream网络提取输入视频的时空特征,生成RGB特征和光流特征,作为视频特征序列F;
步骤3、视频特征序列F输入到多路径时序上下文特征聚合模块,分别通过:
时间全局相关结构在整个视频输入特征上构建丰富的全局上下文信息,生成时间全局特征A;
长范围时间特征相关结构考虑长距离上下文特征的聚合,生成长范围时序特征B;
局部特征结构,通过卷积运算,生成局部特征C;
最后将3个特征进行融合,得到多路径时序上下文特征D;
步骤4、将多路径时序上下文特征D输入到多分支边界生成器中,分别通过多分支边界生成器中的浅层边界生成器和深层边界生成器生成两组边界概率序列P′s,P′e和P″s″,P″e″,融合生成最终的提名边界概率Ps和Pe;
步骤5、提名评估:将步骤3中多路径时序上下文特征D输入到提名评估模块中,生成提名匹配置信图,为密集分布的提名框提供置信度分数;
步骤6、后处理:融合步骤4生成的提名边界概率Ps、Pe和步骤5生成的提名匹配置信图,生成最终置信度分数,并基于最终的置信度分数采用Soft-NMS算法抑制冗余提名。
2.根据权利要求1所述的一种基于上下文聚合和边界生成的时序行为检测方法,其特征在于:所述步骤3中
Ms(Fc)=σ(f([AvgPool(Fc);MaxPool(Fc)])) (2)
B=Activation(Fdilated-Causal(F)+Conv1D(F)) (4)
C=Conv(Conv(F)) (5)。
3.根据权利要求2所述的一种基于上下文聚合和边界生成的时序行为检测方法,其特征在于:所述步骤4中,浅层边界生成器由两个Conv1D卷积层组成,并使用sigmoid函数激活输出特征以生成开始点的概率P′s和结束点概率P′e;深层边界生成器设计为编码器-解码器U型结构,通过组合多尺度特征来生成精确的动作边界,并通过一系列的密集卷积块以跳跃连接方式融合相同尺度的编码器和解码器特征,最终使用sigmoid函数激活输出特征以生成开始点的概率P″s″和结束点概率P″e″,融合生成最终的提名边界概率Ps和Pe的公式为(7):
4.根据权利要求1-3任意一个权利要求所述的一种基于上下文聚合和边界生成的时序行为检测方法,其特征在于:所述步骤5中,对于输入的多路径时序上下文特征D,首先将其转化为边界匹配特征图,然后对其进行采样操作以获得提名匹配特征图P,之后通过提名评估模块中的提名关系感知模块融合相邻提名特征,最终采用Sigmoid函数得到提名匹配置信度图,分别用来分类和回归。
5.根据权利要求4所述的一种基于上下文聚合和边界生成的时序行为检测方法,其特征在于:所述提名关系感知模块是一种具有压缩激励块的残差模块变体,对于输入的特征图P首先通过输入特征层进行全局平均池化操作,然后,使用两个全连接层捕获通道之间的关系,在两个全连接之间设置GELU层,之后执行Sigmoid以将值固定在[0,1],获得输入特征层的每个通道的权重值,最后与输入特征图P相叠加得到最后的输出特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311004570.3A CN117115906A (zh) | 2023-08-10 | 2023-08-10 | 一种基于上下文聚合和边界生成的时序行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311004570.3A CN117115906A (zh) | 2023-08-10 | 2023-08-10 | 一种基于上下文聚合和边界生成的时序行为检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117115906A true CN117115906A (zh) | 2023-11-24 |
Family
ID=88811998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311004570.3A Pending CN117115906A (zh) | 2023-08-10 | 2023-08-10 | 一种基于上下文聚合和边界生成的时序行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117115906A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292307A (zh) * | 2023-11-27 | 2023-12-26 | 江苏源驶科技有限公司 | 一种基于粗时间粒度的时序动作提名生成方法及系统 |
-
2023
- 2023-08-10 CN CN202311004570.3A patent/CN117115906A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292307A (zh) * | 2023-11-27 | 2023-12-26 | 江苏源驶科技有限公司 | 一种基于粗时间粒度的时序动作提名生成方法及系统 |
CN117292307B (zh) * | 2023-11-27 | 2024-01-30 | 江苏源驶科技有限公司 | 一种基于粗时间粒度的时序动作提名生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108228915B (zh) | 一种基于深度学习的视频检索方法 | |
Liu et al. | Lasagna: Towards deep hierarchical understanding and searching over mobile sensing data | |
CN110287879B (zh) | 一种基于注意力机制的视频行为识别方法 | |
CN117115906A (zh) | 一种基于上下文聚合和边界生成的时序行为检测方法 | |
WO2020191282A2 (en) | System and method for multi-task lifelong learning on personal device with improved user experience | |
Wanyan et al. | Active exploration of multimodal complementarity for few-shot action recognition | |
CN112529678B (zh) | 一种基于自监督判别式网络的金融指数时序异常检测方法 | |
CN111984820B (zh) | 一种基于双自注意力胶囊网络的视频摘要方法 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN113255625B (zh) | 一种视频检测方法、装置、电子设备和存储介质 | |
Yang et al. | Dual structure constrained multimodal feature coding for social event detection from flickr data | |
CN113392717A (zh) | 一种基于时序特征金字塔的视频密集描述生成方法 | |
Xu et al. | Rank-in-rank loss for person re-identification | |
CN115033739A (zh) | 搜索方法、模型训练方法、装置、电子设备和介质 | |
Wang et al. | Multi-channel attentive weighting of visual frames for multimodal video classification | |
CN117292307B (zh) | 一种基于粗时间粒度的时序动作提名生成方法及系统 | |
Sharma et al. | Construction of large-scale misinformation labeled datasets from social media discourse using label refinement | |
Zhang et al. | A deep learning method for video‐based action recognition | |
CN104778272A (zh) | 一种基于区域挖掘和空间编码的图像位置估计方法 | |
CN116069973B (zh) | 一种基于语义自挖掘的视频摘要生成方法 | |
Huang et al. | Multi‐scale feature combination for person re‐identification | |
CN116955650A (zh) | 基于小样本知识图谱补全的信息检索优化方法及其系统 | |
CN116719936A (zh) | 一种基于集成学习的网络不可靠信息早期检测方法 | |
CN113792167B (zh) | 一种基于注意力机制和模态依赖的跨媒体交叉检索方法 | |
Yin et al. | Learning multi-context aware location representations from large-scale geotagged images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |