CN114758285B - 基于锚自由和长时注意力感知的视频交互动作检测方法 - Google Patents
基于锚自由和长时注意力感知的视频交互动作检测方法 Download PDFInfo
- Publication number
- CN114758285B CN114758285B CN202210663949.4A CN202210663949A CN114758285B CN 114758285 B CN114758285 B CN 114758285B CN 202210663949 A CN202210663949 A CN 202210663949A CN 114758285 B CN114758285 B CN 114758285B
- Authority
- CN
- China
- Prior art keywords
- pyramid
- time
- action
- feature
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明方法公开了基于锚自由和长时注意力感知的视频交互动作检测方法,属于计算机视觉和模式识别技术领域,实现了对长视频中动作部分的高效定位以及动作识别。方法的具体步骤如下:视频特征提取;搭建基于锚自由和长时注意力感知的视频交互双流网络模型;构建基于锚自由和长时注意力感知的视频交互动作检测方法的目标函数;基于锚自由和长时注意力感知的视频交互动作检测方法。本发明基于已知数据集训练后可对长视频的动作进行有效定位并进行动作识别,有效地解决了传统动作分类方法无法在长视频中进行有效分类的问题,并且提升收敛速度,提升了工作效率。
Description
技术领域
本发明属于计算机视觉和模式识别技术领域,涉及基于锚自由和长时注意力感知的视频交互动作检测方法。
背景技术
在视频理解中,时序动作检测是一项重要而又具有挑战性的任务;随着深度学习技术的发展,时序动作检测任务取得了很大的进步,其根本目标是识别视频中各段动作实例的时序边界并判定动作的类别,这一过程可以分为视频特征提取、动作时域候选生成和动作识别三个步骤。其中,动作时域候选的生成是决定时序动作检测算法性能的关键;动作时域候选生成的任务目标是在一维时序帧序列中判定各段动作实例的时域边界。目前的动作时域候选生成方法可大致分为三类,一类基于多种尺度的观察窗生成时域候选,称为锚点机制;另一类动作得分方法基于动作概率曲线以界定动作时域候选的时域边界。最后是每一时序点生成一个动作提案的锚自由方法;锚点机制通过人为设定的大量预定义候选框以达到覆盖正确实例的目的,动作得分方法则通过穷举排列组合方式找到最优拟合实例,二者均取得了一定效果但二者均存在着模型参数或超参数过量导致效率低下的问题,锚自由方法有效地解决了这一问题。
然而传统的锚自由方法同锚点方法、动作得分方法都面临着时序语义信息捕获不完全,利用不充分的现象;这是由于时序动作检测运用到的方法大多受启发于二维目标检测,二维关系决定其不涉及前后文语义关系信息,这就意味着传统的目标检测方法无法简单地直接应用在时序动作检测方法中,因此第三维度的延展是时序动作检测方向突破的关键。
注意力机制是计算机视觉方向领域中热门方法之一,其优势在于能够捕获关键信息同时压缩相关信息,基于此方法各领域均取得了不错的成果,但在时序动作检测方向,基于注意力机制的研究还有较大提升空间,尤其在时序维度上的注意力机制研究者们还没有比较成熟的技术手段。
发明内容
本发明提供基于锚自由和长时注意力感知的视频交互动作检测方法。有效地解决了传统动作分类方法无法在长视频中进行有效分类的问题,并且提升收敛速度,提升了工作效率。
基于锚自由和长时注意力感知的视频交互动作检测方法具体包括以下步骤:
步骤1:对原始视频进行特征编码提取。
步骤1-1:使用在Kinetics数据集训练好的I3D模型提取3D双流特征,即RGB流和光
流特征;提取视频的RGB特征序列为,其中T表示特征时间维度,C表示特征
通道维度,H表示特征宽,W表示特征高。
步骤2:搭建金字塔模块,将双流视频特征编码分别输入到金字塔结构中,手动为不同粒度特征进行位置编码,获得多层级的特征表示。
步骤2-2:通过设计位置嵌入函数手动为时间序列中的每个节点嵌入带有前后顺序的位置信息,为金字塔特征每一层级嵌入位置信息。
步骤3:构建长时动态过去未来注意力模块,将带有位置信息的双流多级金字塔特征作为输入,动态强化重要信息,弱化无关信息。
步骤4:构建粗粒度预测与优化模块,融合双流输出并消除冗余得到最终结果。
优选的,所述步骤3具体步骤如下:
步骤3-1:将带有位置信息的任意一层RGB或光流金字塔特征每个时间片段的
内容映射成一个维度向量,使具有形状;利用注意力模块捕获中任意
两个时间位置之间的相关性,计算特征的任意两个位置之间的关系,动态注意
力模块定义如下:
其中为三个映射函数,i和j代表任意两位置,与为金字塔同级特
征中任意两个时间点的特征,其中对进行映射并保持其原有维度,对
进行映射并保留其原有维度,表示对特征进行转置,使特征序列中任意两点之
间建立关系,为控制两位置点之间是否有关的指示函数,其被初始化为两部分:
步骤3-2:将更新后的分为两部分和,并分别
与初始特征加权,然后按通道维度拼接;再将前后文关
系映射到通道维度得到特征,经过池化和卷积得到与初始
特征形状相同的,与输入初始特征相加形成最后的输出特征。
优选的,所述构建粗粒度预测与优化模块,融合双流输出并消除冗余得到最终结果具体步骤如下:
步骤4-1:将步骤3处理后的双流特征分别输入粗粒度预测模块,对每一层级特征的每一时间点位进行动作定位和分类,得到分类结果以及回归结果,其中为数据集动作类别数,对于每一时间点有粗粒度预测结果,将初步预测结果输送到细粒度优化模块输出得到分类结果以及回归结果,cls表示分类结果,reg表示回归结果;通过
如下公式进行更新得到每一时间点有优化偏移量,并得到更新后结果;
步骤4-2:将双流结果相加融合,最后利用Soft-NMS方法消除冗余片段得到最终结果。
优选的,所述为金字塔特征每一层级嵌入位置信息具体步骤如下:
其中表示时间维度上的位置,e表示编码的维度,e的取值范围为[0~c),c表示
通道维度大小;每个时间位置都对应唯一的位置编码,将位置编码嵌入到金字塔结构中的
每一层特征中。具体地,同一层级的位置编码与对应特征维度相同,则将位置编码与特
征对应相加;更新得到新的即,两位置间差异表示为:
由于位置函数均由正弦、余弦函数组成,其具体数值通过简单的三角函数公式得出:
本发明的优点和有益效果:
本发明通过对金字塔特征人为地嵌入位置信息,解决了传统卷积操作捕获顺序信息困难的问题,提升了模型的性能以及泛化能力;利用动态学习的动态过去未来注意力机制发掘特征包含的潜在顺序信息,进一步提升了模型定位识别效果。模型经过训练,其定位识别效果得到了提升,并且收敛速度较快,具有良好的工作效率;对时序信息的开发利用也进一步提升了模型的泛化能力,在THUMOS14数据集上取得了优秀的成绩。
附图说明
图1为本发明的结构示意图。
图2为长时动态过去未来注意力模块示意图。
具体实施方式
下面结合附图对本发明作进一步的描述。
实施例1:
如图1所示,为本发明一种基于锚自由和长时注意力感知的视频交互动作检测方
法的操作流程图,该方法的操作步骤包括:选择一段带有动作片段的视频,提取其特征编码F,对F进行五次时间维度压缩,形成六级金字塔特征,之后人为地为金字塔每一层嵌入位置
信息,再将整个金字塔特征模块输入到长时动态过去未来注意力模块捕获前后文关系,
并利用粗、细预测模块对金字塔每一层每一时间节点进行预测,得到预测结果,最后利用Soft-NMS消除冗余结果得到最后的定位和分类结果即动作开
始结束时间以及动作分类。
具体步骤如下:
步骤1视频特征提取
由于原始视频数据量过大,无法直接作为模型的输入,因此首先需要对原始视频
进行特征编码提取。本发明采用在Kinetics数据集训练好的I3D模型来提取3D双流特征,具
体地,以RGB流为例,给定一个视频,提取其特征序列为,其
中T,C,H,W分别表示特征时间维度,通道维度,宽和高;这样的特征序列包含了时间空间信
息,但直接运用四维特征将影响处理效率。
步骤2搭建金字塔模块将双流视频特征编码分别输送到金字塔结构中,手动地为不同粒度特征进行位置编码获得多层级的特征表示。
金字塔模块构建,在步骤10的基础上将生成的形如特征作为金字
塔底部特征,随后利用多个时间维度卷积核合并时间维度,并浓缩其他维度信息,以此得到
高效的输入特征,得到等多级金字塔特征。但同时因为卷积操作的
特性,在特征下采样的过程中无法避免的损失部分信息,其中时间位置信息首当其冲。传统
处理时序序列的方法多借鉴于自然语言处理方向的RNN、LSTM等循环结构,但由于循环网络
结构的特异性与视频序列的连贯性不同,经过实验验证循环网络并不适用于视频特征序
列。因此本发明提出通过设计位置嵌入函数来手动地为时间序列中的每个节点嵌入带有前
后顺序的位置信息,使得后续的操作过程中无需利用复杂的网络结构来捕获位置关系,而
是在每一次映射过程中的特征自带顺序关系,即将传统模式杂的网络参数中的位置信息转
移至输入特征中,减轻了网络模型的体量,使得训练过程变得更简单。因此需要手动地为金
字塔特征每一层级嵌入位置信息,将金字塔某一层特征称为,于是其对应嵌入的位置信
息则为,其维度与对应层级特征序列维度相同,表示为;可以表示为:
其中PO表示时间维度上的位置,e表示编码的维度,e的取值范围为[0~c),c表示通
道维度大小。每个时间位置都有唯一的位置编码,将位置编码嵌入到金字塔结构中的每一
层特征中,更新得到新的即,于是任意两时间点间的差异不仅表示了
运动关系,还附加了时间位置关系:
D表示两位置间差异,i与i+n表示任意两时间点位置,可以看出经过简单的交换运
算,更新后的任意两位置间差异不仅包含运动差异还包含了时间位置差异。由于
位置函数均由正弦、余弦函数组成,因此其具体数值可通过简单的三角函数公式得出:
步骤3构建长时动态过去未来注意力模块将带有位置信息的双流多级金字塔特征作为输入,动态强化重要信息,弱化无关信息。
长时动态过去未来注意力模块类比人类观察动作的模式,在观察一段长视频时,
由于视频长度较长,简单的通过某一较短时间段无法全面判断整体动作的类别。因此会根
据视频的前段背景、动作、后段背景之间的关系,来分析动作的成分,因此模型会通过长时
间动态注意力的方式捕获任意两个时间位置之间的双向关系。不同于传统的注意力模块,
本模型将注意力部分拆分为时间顺序上靠前的节点对时序靠后的节点的影响以及时序靠
后的节点对时序靠前的节点的影响,并且将注意力权重嵌入模型中参与训练,动态地更新
参数,使模型能够有侧重地关注重要信息,忽略无关信息,该过程称为长时动态过去未来注
意力操作。特征经过长时动态过去未来注意力模块后,其将丰富的语义信息压缩至通道
维度,之后,引入全连接的层用于自适应特征响应重新校准。其具体步骤如下,将带有位置
信息的任意一层金字塔特征每个时间片段的内容映射成一个维度向量,使得具有
形状;注意力模块可以捕获中任意两个时间位置之间的相关性,
计算特征的任意两个位置之间的关系是捕捉视觉场景的全局理解的高效、通用和直接的方
式;遵循这一原则,动态注意力模块定义如下:
其中为三个映射函数,和代表任意两位置,与为金字塔同级
特征中任意两个时间点的特征,其中对进行映射并保持其原有维度,对进行映射并保留其原有维度,表示对特征进行转置,使特征序列中任意两
点之间建立关系,为控制两位置点之间是否有关的指示函数,其被初始化为两部分:
值得注意的是,本申请提出的长时动态过去未来注意力不同于以往的固定注意力
模式,其初始化过程是人为固定的,但随后会跟随模型一起进行梯度更新,动态地学习、强
化重要信息,忽略、弱化无关信息。更新后的分为两部分和,并分别与初始特征加权,然后按通道维
度拼接,将丰富的前后文关系映射到通道维度得到特征形如,随后经过池化和卷积得到并与初始特征形状相同的,之后与输入初始特征相加形成最后的输出特征,r表示特征经过该模
块,得到了改善。区别于传统的注意力机制,特有的动态学习能力,使得模型在学习过程
中更与有针对性的关注过去对未来的影响和未来对过去的影响。
步骤4构建粗粒度预测与优化模块,融合双流输出并消除冗余得到最终结果。
初始预测与优化,原始视频经过特征提取以及压缩之后保存在金字塔特征结构
中,经过位置嵌入以及动态注意力学习后,对每一层级特征的每一时间点位进行动作定
位和分类,对于第l层第i时间位置上的特征点,其初步预测结果为;随后
将初步预测结果输送到细粒度优化模输出得到优化偏移量,通过如下方
式进行更新:
网络模型的任务主要分为动作定位和动作分类两个部分,而针对两部分都分为粗
粒度预测和细粒度优化两部分;粗粒度预测部分,对于每一个特征的时间位置,若其在标
签范围内,则将其设为正样本,对于细粒度优化部分,计算粗粒度预测起止片段与标签范围
的IoU(tIoU),若IoU>0.5则将其标记为正样本;模型的总体损失函数为:
为了验证本发明的有效性,在数据集THUMOS14数据集上进行了评测,具体实验设置为:光流和RGB流采样率均为10帧每秒,采样片段长度设置为256帧,训练时相邻片段重叠设置为30帧,训练时设置为128帧,空间采样大小为98×98,训练时加入随机剪裁、水平翻转等方法来增强训练数据;模型采用在Kinetics数据集上预训练的I3D模型提取特征。
下表1展示了经典时序动作检测算法与本发明性能的比较。
表1
下表2展示了在不同mAP且其他实验条件保持一致的情况下光流、RGB流以及双流融合受动态过去未来注意力模块的影响情况,动态过去未来注意力模块是否跟随模型参与动态调节是模型性能的影响因素之一。
表2
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制;尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (3)
1.一种基于锚自由和长时注意力感知的视频交互动作检测方法,其特征在于,包括以下步骤:
步骤1:对原始视频进行特征编码提取;
步骤1-1:使用在Kinetics数据集训练好的I3D模型提取3D双流特征,即RGB流和光流特
征;提取视频的RGB特征序列为,其中T表示特征时间维度,C表示特征通道
维度,H表示特征宽,W表示特征高;
步骤2:搭建金字塔模块,将双流视频特征编码分别输入到金字塔结构中,手动为不同粒度特征进行位置编码,获得多层级的特征表示;
步骤2-2:通过设计位置嵌入函数手动为时间序列中的每个节点嵌入带有前后顺序的位置信息,为金字塔特征每一层级嵌入位置信息;
所述为金字塔特征每一层级嵌入位置信息具体步骤如下:
其中表示时间维度上的位置,e表示编码的维度,e的取值范围为[0~c),c表示通道
维度大小;每个时间位置都对应唯一的位置编码,将位置编码嵌入到金字塔结构中的每一
层特征中;具体地,同一层级的位置编码与对应特征维度相同,则将位置编码与特征对
应相加;更新得到新的即,两位置间差异表示为:
由于位置函数均由正弦、余弦函数组成,其具体数值通过简单的三角函数公式得出:
步骤3:构建长时动态过去未来注意力模块,将带有位置信息的双流多级金字塔特征作为输入,动态强化重要信息,弱化无关信息;
所述步骤3具体步骤如下:
步骤3-1:将带有位置信息的任意一层RGB或光流金字塔特征每个时间片段的内容
映射成一个维度向量,使具有形状,为金字塔特征任意层的时间长度;
利用注意力模块捕获中任意两个时间位置之间的相关性,计算特征的任意
两个位置之间的关系,动态注意力模块定义如下:
其中为三个映射函数,i和j代表任意两位置,与为金字塔同级特征中
任意两个时间点的特征,其中对进行映射并保持其原有维度,对进行
映射并保留其原有维度,表示对特征进行转置,使特征序列中任意两点之间建
立关系,为控制两位置点之间是否有关的指示函数,其被初始化为两部分:
步骤3-2:将更新后的分为两部分和,并分别与初
始特征加权,然后按通道维度拼接;再将前后文关系映
射到通道维度得到特征,经过池化和卷积得到与初始特征
形状相同的,与输入初始特征相加形成最后的输出特征;
步骤4:构建粗粒度预测与优化模块,融合双流输出并消除冗余得到最后的定位和分类结果即动作开始结束时间以及动作分类。
2.根据权利要求1所述的基于锚自由和长时注意力感知的视频交互动作检测方法,其特征在于,所述构建粗粒度预测与优化模块,融合双流输出并消除冗余得到最终结果具体步骤如下:
步骤4-1:将步骤3处理后的双流特征分别输入粗粒度预测模块,对每一层级特征的
每一时间点位进行动作定位和分类,得到分类结果以及回归结果,其中为数据集动作类别数,对于每一时间点有粗粒度预测结果,其中表示粗粒度预测动作起止时间,表示粗粒度预测
动作类别;将初步预测结果输送到细粒度优化模块输出得到分类结果以及
回归结果,cls表示分类结果,reg表示回归结果;通过如下方式进行更新得
到每一时间点有优化偏移量,并得到更新后结果;
步骤4-2:将双流结果相加融合,利用Soft-NMS方法消除冗余片段得到最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210663949.4A CN114758285B (zh) | 2022-06-14 | 2022-06-14 | 基于锚自由和长时注意力感知的视频交互动作检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210663949.4A CN114758285B (zh) | 2022-06-14 | 2022-06-14 | 基于锚自由和长时注意力感知的视频交互动作检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114758285A CN114758285A (zh) | 2022-07-15 |
CN114758285B true CN114758285B (zh) | 2022-10-14 |
Family
ID=82336247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210663949.4A Active CN114758285B (zh) | 2022-06-14 | 2022-06-14 | 基于锚自由和长时注意力感知的视频交互动作检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114758285B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115187917B (zh) * | 2022-09-13 | 2022-11-25 | 山东建筑大学 | 基于视频片段检索的无人车历史场景检测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897714B (zh) * | 2017-03-23 | 2020-01-14 | 北京大学深圳研究生院 | 一种基于卷积神经网络的视频动作检测方法 |
CN111914731B (zh) * | 2020-07-28 | 2024-01-23 | 上海电力大学 | 一种基于自注意力机制的多模态lstm的视频动作预测方法 |
CN112750122B (zh) * | 2021-01-21 | 2022-08-02 | 山东省人工智能研究院 | 基于双流边界感知神经网络的图像篡改区域定位方法 |
CN112926396B (zh) * | 2021-01-28 | 2022-05-13 | 杭州电子科技大学 | 一种基于双流卷积注意力的动作识别方法 |
CN113255443B (zh) * | 2021-04-16 | 2024-02-09 | 杭州电子科技大学 | 一种基于金字塔结构的图注意力网络时序动作定位方法 |
CN114049582A (zh) * | 2021-09-27 | 2022-02-15 | 中国科学院信息工程研究所 | 基于网络结构搜索和背景-动作增强的弱监督行为检测方法和装置 |
-
2022
- 2022-06-14 CN CN202210663949.4A patent/CN114758285B/zh active Active
Non-Patent Citations (2)
Title |
---|
"Learning Salient Boundary Feature for Anchor-free";Chuming Lin 等;《2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20211102;3320-3329 * |
"Learning Temporal Co-Attention Models for Unsupervised Video Action";Guoqiang Gong 等;《2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200805;9816-9825 * |
Also Published As
Publication number | Publication date |
---|---|
CN114758285A (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110322446B (zh) | 一种基于相似性空间对齐的域自适应语义分割方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN112733656B (zh) | 基于多流空间注意力图卷积sru网络的骨架动作识别方法 | |
CN113011329A (zh) | 一种基于多尺度特征金字塔网络及密集人群计数方法 | |
CN113239801B (zh) | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN108985298B (zh) | 一种基于语义一致性的人体衣物分割方法 | |
Li et al. | A review of deep learning methods for pixel-level crack detection | |
CN110163060B (zh) | 图像中人群密度的确定方法及电子设备 | |
CN115311605B (zh) | 基于近邻一致性和对比学习的半监督视频分类方法及系统 | |
CN114758285B (zh) | 基于锚自由和长时注意力感知的视频交互动作检测方法 | |
Tao et al. | An adaptive frame selection network with enhanced dilated convolution for video smoke recognition | |
Hu et al. | RGB-D image multi-target detection method based on 3D DSF R-CNN | |
CN115222998A (zh) | 一种图像分类方法 | |
Aldhaheri et al. | MACC Net: Multi-task attention crowd counting network | |
CN111126155A (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN116934796A (zh) | 基于孪生残差注意力聚合网络的视觉目标跟踪方法 | |
Xiong et al. | TFA-CNN: an efficient method for dealing with crowding and noise problems in crowd counting | |
Qi et al. | TCNet: A novel triple-cooperative network for video object detection | |
CN113283393B (zh) | 基于图像组与两流网络的Deepfake视频检测方法 | |
Xu et al. | ESNet: An efficient framework for superpixel segmentation | |
Wu et al. | A domain generalization pedestrian re-identification algorithm based on meta-graph aware | |
CN113313210A (zh) | 用于数据处理的方法和设备 | |
Mi et al. | Sniffer-Net: quantitative evaluation of smoke in the wild based on spatial–temporal motion spectrum |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |