CN114758285B - 基于锚自由和长时注意力感知的视频交互动作检测方法 - Google Patents

基于锚自由和长时注意力感知的视频交互动作检测方法 Download PDF

Info

Publication number
CN114758285B
CN114758285B CN202210663949.4A CN202210663949A CN114758285B CN 114758285 B CN114758285 B CN 114758285B CN 202210663949 A CN202210663949 A CN 202210663949A CN 114758285 B CN114758285 B CN 114758285B
Authority
CN
China
Prior art keywords
pyramid
time
action
feature
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210663949.4A
Other languages
English (en)
Other versions
CN114758285A (zh
Inventor
高赞
吴天奇
马述杰
谭文
陶瑞涛
张蕊
聂礼强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Qingdao Haier Smart Technology R&D Co Ltd
Taihua Wisdom Industry Group Co Ltd
Shandong Institute of Artificial Intelligence
Original Assignee
Shandong University
Qingdao Haier Smart Technology R&D Co Ltd
Taihua Wisdom Industry Group Co Ltd
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University, Qingdao Haier Smart Technology R&D Co Ltd, Taihua Wisdom Industry Group Co Ltd, Shandong Institute of Artificial Intelligence filed Critical Shandong University
Priority to CN202210663949.4A priority Critical patent/CN114758285B/zh
Publication of CN114758285A publication Critical patent/CN114758285A/zh
Application granted granted Critical
Publication of CN114758285B publication Critical patent/CN114758285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明方法公开了基于锚自由和长时注意力感知的视频交互动作检测方法,属于计算机视觉和模式识别技术领域,实现了对长视频中动作部分的高效定位以及动作识别。方法的具体步骤如下:视频特征提取;搭建基于锚自由和长时注意力感知的视频交互双流网络模型;构建基于锚自由和长时注意力感知的视频交互动作检测方法的目标函数;基于锚自由和长时注意力感知的视频交互动作检测方法。本发明基于已知数据集训练后可对长视频的动作进行有效定位并进行动作识别,有效地解决了传统动作分类方法无法在长视频中进行有效分类的问题,并且提升收敛速度,提升了工作效率。

Description

基于锚自由和长时注意力感知的视频交互动作检测方法
技术领域
本发明属于计算机视觉和模式识别技术领域,涉及基于锚自由和长时注意力感知的视频交互动作检测方法。
背景技术
在视频理解中,时序动作检测是一项重要而又具有挑战性的任务;随着深度学习技术的发展,时序动作检测任务取得了很大的进步,其根本目标是识别视频中各段动作实例的时序边界并判定动作的类别,这一过程可以分为视频特征提取、动作时域候选生成和动作识别三个步骤。其中,动作时域候选的生成是决定时序动作检测算法性能的关键;动作时域候选生成的任务目标是在一维时序帧序列中判定各段动作实例的时域边界。目前的动作时域候选生成方法可大致分为三类,一类基于多种尺度的观察窗生成时域候选,称为锚点机制;另一类动作得分方法基于动作概率曲线以界定动作时域候选的时域边界。最后是每一时序点生成一个动作提案的锚自由方法;锚点机制通过人为设定的大量预定义候选框以达到覆盖正确实例的目的,动作得分方法则通过穷举排列组合方式找到最优拟合实例,二者均取得了一定效果但二者均存在着模型参数或超参数过量导致效率低下的问题,锚自由方法有效地解决了这一问题。
然而传统的锚自由方法同锚点方法、动作得分方法都面临着时序语义信息捕获不完全,利用不充分的现象;这是由于时序动作检测运用到的方法大多受启发于二维目标检测,二维关系决定其不涉及前后文语义关系信息,这就意味着传统的目标检测方法无法简单地直接应用在时序动作检测方法中,因此第三维度的延展是时序动作检测方向突破的关键。
注意力机制是计算机视觉方向领域中热门方法之一,其优势在于能够捕获关键信息同时压缩相关信息,基于此方法各领域均取得了不错的成果,但在时序动作检测方向,基于注意力机制的研究还有较大提升空间,尤其在时序维度上的注意力机制研究者们还没有比较成熟的技术手段。
发明内容
本发明提供基于锚自由和长时注意力感知的视频交互动作检测方法。有效地解决了传统动作分类方法无法在长视频中进行有效分类的问题,并且提升收敛速度,提升了工作效率。
基于锚自由和长时注意力感知的视频交互动作检测方法具体包括以下步骤:
步骤1:对原始视频进行特征编码提取。
步骤1-1:使用在Kinetics数据集训练好的I3D模型提取3D双流特征,即RGB流和光 流特征;提取视频的RGB特征序列为
Figure 354458DEST_PATH_IMAGE001
,其中T表示特征时间维度,C表示特征 通道维度,H表示特征宽,W表示特征高。
步骤1-2:通过卷积操作将双流特征的HW维度压缩形成二维特征
Figure 802757DEST_PATH_IMAGE002
,将 其作为金字塔特征的基本单元。
步骤2:搭建金字塔模块,将双流视频特征编码分别输入到金字塔结构中,手动为不同粒度特征进行位置编码,获得多层级的特征表示。
步骤2-1:构建金字塔模块,将
Figure 113653DEST_PATH_IMAGE002
特征
Figure 40020DEST_PATH_IMAGE003
作为金字塔底部特征,利用多 个时间维度卷积核合并时间维度,并浓缩通道维度信息,得到
Figure 588813DEST_PATH_IMAGE004
多级 金字塔特征,l表示最底层,n代表除去金字塔底层的层数。
步骤2-2:通过设计位置嵌入函数手动为时间序列中的每个节点嵌入带有前后顺序的位置信息,为金字塔特征每一层级嵌入位置信息。
步骤3:构建长时动态过去未来注意力模块,将带有位置信息的双流多级金字塔特征作为输入,动态强化重要信息,弱化无关信息。
步骤4:构建粗粒度预测与优化模块,融合双流输出并消除冗余得到最终结果。
优选的,所述步骤3具体步骤如下:
步骤3-1:将带有位置信息的任意一层RGB或光流金字塔特征
Figure 942434DEST_PATH_IMAGE005
每个时间片段的 内容映射成一个
Figure 6205DEST_PATH_IMAGE006
维度向量,使
Figure 736264DEST_PATH_IMAGE005
具有形状
Figure 936301DEST_PATH_IMAGE007
;利用注意力模块捕获
Figure 664086DEST_PATH_IMAGE005
中任意 两个时间位置之间的相关性
Figure 949573DEST_PATH_IMAGE008
,计算特征的任意两个位置之间的关系,动态注意 力模块定义如下:
Figure 483323DEST_PATH_IMAGE009
其中
Figure 537867DEST_PATH_IMAGE010
为三个映射函数,ij代表任意两位置,
Figure 702132DEST_PATH_IMAGE011
Figure 474916DEST_PATH_IMAGE012
为金字塔同级特 征中任意两个时间点的特征,其中
Figure 546777DEST_PATH_IMAGE013
Figure 721406DEST_PATH_IMAGE011
进行映射并保持其原有维度
Figure 790993DEST_PATH_IMAGE007
Figure 316653DEST_PATH_IMAGE014
Figure 926625DEST_PATH_IMAGE012
进行映射并保留其原有维度
Figure 159024DEST_PATH_IMAGE007
Figure 461829DEST_PATH_IMAGE015
表示对特征进行转置,使特征序列中任意两点之 间建立关系,
Figure 209205DEST_PATH_IMAGE016
为控制两位置点之间是否有关的指示函数,其被初始化为两部分:
Figure 622869DEST_PATH_IMAGE017
Figure 709774DEST_PATH_IMAGE018
步骤3-2:将更新后的
Figure 449060DEST_PATH_IMAGE019
分为两部分
Figure 418153DEST_PATH_IMAGE020
Figure 573190DEST_PATH_IMAGE021
,并分别 与初始特征
Figure 576919DEST_PATH_IMAGE005
加权
Figure 487106DEST_PATH_IMAGE022
,然后按通道维度拼接;再将前后文关 系映射到通道维度得到特征
Figure 943495DEST_PATH_IMAGE023
,经过池化和卷积得到与初始 特征形状相同的
Figure 902224DEST_PATH_IMAGE024
,与输入初始特征
Figure 494879DEST_PATH_IMAGE005
相加形成最后的输出特征
Figure 575967DEST_PATH_IMAGE025
优选的,所述构建粗粒度预测与优化模块,融合双流输出并消除冗余得到最终结果具体步骤如下:
步骤4-1:将步骤3处理后的双流特征分别输入粗粒度预测模块,对每一层级特征
Figure 722915DEST_PATH_IMAGE025
的每一时间点位进行动作定位和分类,得到分类结果
Figure 282072DEST_PATH_IMAGE026
以及回归结果
Figure 260393DEST_PATH_IMAGE027
,其中
Figure 981224DEST_PATH_IMAGE028
为数据集动作类别数,对于每一时间点有粗粒度预测结果
Figure 615468DEST_PATH_IMAGE029
,将初步预测结果输送到细粒度优化模块输出得到分类结果
Figure 978316DEST_PATH_IMAGE030
以及回归结果
Figure 811143DEST_PATH_IMAGE031
,cls表示分类结果,reg表示回归结果;通过 如下公式进行更新得到每一时间点有优化偏移量,并得到更新后结果
Figure 906138DEST_PATH_IMAGE032
Figure 824415DEST_PATH_IMAGE033
步骤4-2:将双流结果相加融合,最后利用Soft-NMS方法消除冗余片段得到最终结果。
优选的,所述为金字塔特征每一层级嵌入位置信息具体步骤如下:
金字塔任意一层特征为
Figure 990954DEST_PATH_IMAGE005
,其对应嵌入的位置信息为
Figure 412708DEST_PATH_IMAGE034
,其维度与对应层级特 征维度相同,表示为
Figure 740921DEST_PATH_IMAGE035
Figure 84178DEST_PATH_IMAGE036
具体表示如下:
Figure 788829DEST_PATH_IMAGE037
Figure 596248DEST_PATH_IMAGE038
其中
Figure 298625DEST_PATH_IMAGE039
表示时间维度上的位置,e表示编码的维度,e的取值范围为[0~c),c表示 通道维度大小;每个时间位置都对应唯一的位置编码,将位置编码嵌入到金字塔结构中的 每一层特征
Figure 925915DEST_PATH_IMAGE005
中。具体地,同一层级的位置编码与对应特征维度相同,则将位置编码与特 征对应相加;更新得到新的
Figure 434257DEST_PATH_IMAGE005
Figure 830603DEST_PATH_IMAGE040
,两位置间差异
Figure 500619DEST_PATH_IMAGE041
表示为:
Figure 818468DEST_PATH_IMAGE042
ii+n表示任意两时间点位置,更新后的
Figure 599342DEST_PATH_IMAGE005
任意两位置间差异不仅包含运动差 异
Figure 381353DEST_PATH_IMAGE043
还包含了时间位置距离
Figure 222270DEST_PATH_IMAGE044
由于位置函数均由正弦、余弦函数组成,其具体数值通过简单的三角函数公式得出:
Figure 27415DEST_PATH_IMAGE045
Figure 611980DEST_PATH_IMAGE046
优选的,得到粗粒度预测结果
Figure 248498DEST_PATH_IMAGE029
和细粒度优化结果
Figure 260316DEST_PATH_IMAGE047
后通过损失函数FocalLoss和L1Loss分别对粗粒度预测和细粒度优化的 分类和定位目标函数优化,具体损失函数如下:
Figure 287178DEST_PATH_IMAGE048
其中
Figure 941013DEST_PATH_IMAGE049
为超参数,
Figure 166458DEST_PATH_IMAGE050
Figure 349178DEST_PATH_IMAGE051
分别为粗粒度预测和细粒度优化的损失函数均 采用FocalLoss,
Figure 128915DEST_PATH_IMAGE052
为粗粒度预测起止片段与标签起止片段的IoULoss,
Figure 55283DEST_PATH_IMAGE053
为预测 偏置和标签偏置的L1Loss。
本发明的优点和有益效果:
本发明通过对金字塔特征人为地嵌入位置信息,解决了传统卷积操作捕获顺序信息困难的问题,提升了模型的性能以及泛化能力;利用动态学习的动态过去未来注意力机制发掘特征包含的潜在顺序信息,进一步提升了模型定位识别效果。模型经过训练,其定位识别效果得到了提升,并且收敛速度较快,具有良好的工作效率;对时序信息的开发利用也进一步提升了模型的泛化能力,在THUMOS14数据集上取得了优秀的成绩。
附图说明
图1为本发明的结构示意图。
图2为长时动态过去未来注意力模块示意图。
具体实施方式
下面结合附图对本发明作进一步的描述。
实施例1:
如图1所示,为本发明一种基于锚自由和长时注意力感知的视频交互动作检测方 法的操作流程图,该方法的操作步骤包括:选择一段带有动作片段的视频,提取其特征编码F,对F进行五次时间维度压缩,形成六级金字塔特征,之后人为地为金字塔每一层嵌入位置 信息
Figure 400814DEST_PATH_IMAGE054
,再将整个金字塔特征模块输入到长时动态过去未来注意力模块捕获前后文关系, 并利用粗、细预测模块对金字塔每一层每一时间节点进行预测,得到预测结果
Figure 20014DEST_PATH_IMAGE032
,最后利用Soft-NMS消除冗余结果得到最后的定位和分类结果即动作开 始结束时间以及动作分类。
具体步骤如下:
步骤1视频特征提取
将数据集中的视频标注为
Figure 21468DEST_PATH_IMAGE055
,每一个视频实例
Figure 751526DEST_PATH_IMAGE056
包含 一段视频
Figure 951564DEST_PATH_IMAGE057
N表示视频帧数,视频对应的标签
Figure 741665DEST_PATH_IMAGE058
可以表示为
Figure 27153DEST_PATH_IMAGE059
Figure 498585DEST_PATH_IMAGE060
表示视频包含的动作实例,
Figure 553129DEST_PATH_IMAGE061
表示动作实例的起止 时间,
Figure 779711DEST_PATH_IMAGE062
表示动作的类别。
由于原始视频数据量过大,无法直接作为模型的输入,因此首先需要对原始视频 进行特征编码提取。本发明采用在Kinetics数据集训练好的I3D模型来提取3D双流特征,具 体地,以RGB流为例,给定一个视频
Figure 286916DEST_PATH_IMAGE057
,提取其特征序列为
Figure 562039DEST_PATH_IMAGE001
,其 中T,C,H,W分别表示特征时间维度,通道维度,宽和高;这样的特征序列包含了时间空间信 息,但直接运用四维特征将影响处理效率。
所以形如
Figure 736669DEST_PATH_IMAGE001
的特征仍然不是模型最优输入形态,通过卷积操作将H 和W维度压缩形成最终的二维特征
Figure 868573DEST_PATH_IMAGE063
作为金字塔特征的基本单元。
步骤2搭建金字塔模块将双流视频特征编码分别输送到金字塔结构中,手动地为不同粒度特征进行位置编码获得多层级的特征表示。
金字塔模块构建,在步骤10的基础上将生成的形如
Figure 331915DEST_PATH_IMAGE063
特征
Figure 941888DEST_PATH_IMAGE064
作为金字 塔底部特征,随后利用多个时间维度卷积核合并时间维度,并浓缩其他维度信息,以此得到 高效的输入特征,得到
Figure 236603DEST_PATH_IMAGE065
等多级金字塔特征。但同时因为卷积操作的 特性,在特征下采样的过程中无法避免的损失部分信息,其中时间位置信息首当其冲。传统 处理时序序列的方法多借鉴于自然语言处理方向的RNN、LSTM等循环结构,但由于循环网络 结构的特异性与视频序列的连贯性不同,经过实验验证循环网络并不适用于视频特征序 列。因此本发明提出通过设计位置嵌入函数来手动地为时间序列中的每个节点嵌入带有前 后顺序的位置信息,使得后续的操作过程中无需利用复杂的网络结构来捕获位置关系,而 是在每一次映射过程中的特征自带顺序关系,即将传统模式杂的网络参数中的位置信息转 移至输入特征中,减轻了网络模型的体量,使得训练过程变得更简单。因此需要手动地为金 字塔特征每一层级嵌入位置信息,将金字塔某一层特征称为
Figure 273829DEST_PATH_IMAGE064
,于是其对应嵌入的位置信 息则为
Figure 21205DEST_PATH_IMAGE066
,其维度与对应层级特征序列维度相同,表示为
Figure 638132DEST_PATH_IMAGE035
Figure 787353DEST_PATH_IMAGE067
可以表示为:
Figure 261060DEST_PATH_IMAGE037
Figure 433415DEST_PATH_IMAGE038
其中PO表示时间维度上的位置,e表示编码的维度,e的取值范围为[0~c),c表示通 道维度大小。每个时间位置都有唯一的位置编码,将位置编码嵌入到金字塔结构中的每一 层特征
Figure 385191DEST_PATH_IMAGE064
中,更新得到新的
Figure 654498DEST_PATH_IMAGE064
Figure 33527DEST_PATH_IMAGE068
,于是任意两时间点间的差异不仅表示了 运动关系,还附加了时间位置关系:
Figure 693178DEST_PATH_IMAGE042
D表示两位置间差异,ii+n表示任意两时间点位置,可以看出经过简单的交换运 算,更新后的
Figure 448645DEST_PATH_IMAGE064
任意两位置间差异不仅包含运动差异
Figure 572458DEST_PATH_IMAGE069
还包含了时间位置差异
Figure 591230DEST_PATH_IMAGE070
。由于 位置函数均由正弦、余弦函数组成,因此其具体数值可通过简单的三角函数公式得出:
Figure 534915DEST_PATH_IMAGE045
Figure 94073DEST_PATH_IMAGE046
步骤3构建长时动态过去未来注意力模块将带有位置信息的双流多级金字塔特征作为输入,动态强化重要信息,弱化无关信息。
长时动态过去未来注意力模块类比人类观察动作的模式,在观察一段长视频时, 由于视频长度较长,简单的通过某一较短时间段无法全面判断整体动作的类别。因此会根 据视频的前段背景、动作、后段背景之间的关系,来分析动作的成分,因此模型会通过长时 间动态注意力的方式捕获任意两个时间位置之间的双向关系。不同于传统的注意力模块, 本模型将注意力部分拆分为时间顺序上靠前的节点对时序靠后的节点的影响以及时序靠 后的节点对时序靠前的节点的影响,并且将注意力权重嵌入模型中参与训练,动态地更新 参数,使模型能够有侧重地关注重要信息,忽略无关信息,该过程称为长时动态过去未来注 意力操作。特征
Figure 806814DEST_PATH_IMAGE064
经过长时动态过去未来注意力模块后,其将丰富的语义信息压缩至通道 维度,之后,引入全连接的层用于自适应特征响应重新校准。其具体步骤如下,将带有位置 信息的任意一层金字塔特征
Figure 996487DEST_PATH_IMAGE064
每个时间片段的内容映射成一个
Figure 427468DEST_PATH_IMAGE071
维度向量,使得
Figure 790316DEST_PATH_IMAGE064
具有 形状
Figure 357564DEST_PATH_IMAGE072
;注意力模块可以捕获
Figure 718138DEST_PATH_IMAGE064
中任意两个时间位置之间的相关性
Figure 901995DEST_PATH_IMAGE073
, 计算特征的任意两个位置之间的关系是捕捉视觉场景的全局理解的高效、通用和直接的方 式;遵循这一原则,动态注意力模块定义如下:
Figure 537375DEST_PATH_IMAGE009
其中
Figure 224708DEST_PATH_IMAGE074
为三个映射函数,
Figure 756184DEST_PATH_IMAGE075
Figure 161758DEST_PATH_IMAGE076
代表任意两位置,
Figure 866408DEST_PATH_IMAGE077
Figure 611510DEST_PATH_IMAGE078
为金字塔同级 特征中任意两个时间点的特征,其中
Figure 110625DEST_PATH_IMAGE013
Figure 3495DEST_PATH_IMAGE077
进行映射并保持其原有维度
Figure 980678DEST_PATH_IMAGE079
Figure 845866DEST_PATH_IMAGE014
Figure 515881DEST_PATH_IMAGE078
进行映射并保留其原有维度
Figure 896047DEST_PATH_IMAGE079
Figure 880184DEST_PATH_IMAGE015
表示对特征进行转置,使特征序列中任意两 点之间建立关系,
Figure 396616DEST_PATH_IMAGE016
为控制两位置点之间是否有关的指示函数,其被初始化为两部分:
Figure 503112DEST_PATH_IMAGE017
Figure 308257DEST_PATH_IMAGE018
值得注意的是,本申请提出的长时动态过去未来注意力不同于以往的固定注意力 模式,其初始化过程是人为固定的,但随后会跟随模型一起进行梯度更新,动态地学习、强 化重要信息,忽略、弱化无关信息。更新后的
Figure 916260DEST_PATH_IMAGE080
分为两部分
Figure 552777DEST_PATH_IMAGE081
Figure 564596DEST_PATH_IMAGE082
,并分别与初始特征
Figure 591457DEST_PATH_IMAGE064
加权
Figure 979713DEST_PATH_IMAGE083
,然后按通道维 度拼接,将丰富的前后文关系映射到通道维度得到特征形如
Figure 470738DEST_PATH_IMAGE084
,随后经过池化和卷积得到并与初始特征形状相同的
Figure 653457DEST_PATH_IMAGE085
,之后与输入初始特征
Figure 433194DEST_PATH_IMAGE064
相加形成最后的输出特征
Figure 359562DEST_PATH_IMAGE086
,r表示特征经过该模 块,得到了改善。区别于传统的注意力机制,
Figure 705093DEST_PATH_IMAGE016
特有的动态学习能力,使得模型在学习过程 中更与有针对性的关注过去对未来的影响和未来对过去的影响。
步骤4构建粗粒度预测与优化模块,融合双流输出并消除冗余得到最终结果。
初始预测与优化,原始视频经过特征提取以及压缩之后保存在金字塔特征结构 中,经过位置嵌入以及动态注意力学习后,对每一层级特征
Figure 527555DEST_PATH_IMAGE086
的每一时间点位进行动作定 位和分类,对于第l层第i时间位置上的特征点,其初步预测结果为
Figure 325747DEST_PATH_IMAGE029
;随后 将初步预测结果输送到细粒度优化模输出得到优化偏移量
Figure 55806DEST_PATH_IMAGE047
,通过如下方 式进行更新:
Figure 255843DEST_PATH_IMAGE087
于是得到结果
Figure 249207DEST_PATH_IMAGE032
;最后利用Soft-NMS方法消除冗余片段得到最终 结果。
网络模型的任务主要分为动作定位和动作分类两个部分,而针对两部分都分为粗 粒度预测和细粒度优化两部分;粗粒度预测部分,对于每一个特征的时间位置
Figure 269115DEST_PATH_IMAGE088
,若其在标 签范围内,则将其设为正样本,对于细粒度优化部分,计算粗粒度预测起止片段与标签范围 的IoU(tIoU),若IoU>0.5则将其标记为正样本;模型的总体损失函数为:
Figure 68444DEST_PATH_IMAGE089
其中
Figure 326250DEST_PATH_IMAGE090
为超参数,用于平衡定位任务对模型整体的影响程度。
Figure 21674DEST_PATH_IMAGE091
Figure 60037DEST_PATH_IMAGE092
为FocalLoss:
Figure 131898DEST_PATH_IMAGE093
其中
Figure 244210DEST_PATH_IMAGE094
表示粗细预测正样本数,
Figure 376114DEST_PATH_IMAGE095
分别表示粗细粒度正样本 数量,
Figure 636195DEST_PATH_IMAGE096
为粗(细)预测分类,
Figure 715009DEST_PATH_IMAGE097
为粗(细)分类标签,
Figure 744145DEST_PATH_IMAGE098
为金字塔特征任意层的时间长 度。
Figure 46950DEST_PATH_IMAGE052
为粗预测起止片段与标签起止片段的IoULoss:
Figure 794326DEST_PATH_IMAGE099
其中
Figure 411252DEST_PATH_IMAGE100
为预测实例范围,
Figure 294895DEST_PATH_IMAGE101
为真实动作范围。
Figure 768602DEST_PATH_IMAGE053
为预测偏置和标签偏置的L1Loss:
Figure 737695DEST_PATH_IMAGE102
其中
Figure 158312DEST_PATH_IMAGE103
为预测偏置,
Figure 162040DEST_PATH_IMAGE104
为真实偏置。
为了验证本发明的有效性,在数据集THUMOS14数据集上进行了评测,具体实验设置为:光流和RGB流采样率均为10帧每秒,采样片段长度设置为256帧,训练时相邻片段重叠设置为30帧,训练时设置为128帧,空间采样大小为98×98,训练时加入随机剪裁、水平翻转等方法来增强训练数据;模型采用在Kinetics数据集上预训练的I3D模型提取特征。
下表1展示了经典时序动作检测算法与本发明性能的比较。
表1
Figure 806648DEST_PATH_IMAGE106
下表2展示了在不同mAP且其他实验条件保持一致的情况下光流、RGB流以及双流融合受动态过去未来注意力模块的影响情况,动态过去未来注意力模块是否跟随模型参与动态调节是模型性能的影响因素之一。
表2
Figure 466299DEST_PATH_IMAGE108
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制;尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种基于锚自由和长时注意力感知的视频交互动作检测方法,其特征在于,包括以下步骤:
步骤1:对原始视频进行特征编码提取;
步骤1-1:使用在Kinetics数据集训练好的I3D模型提取3D双流特征,即RGB流和光流特 征;提取视频的RGB特征序列为
Figure 811806DEST_PATH_IMAGE001
,其中T表示特征时间维度,C表示特征通道 维度,H表示特征宽,W表示特征高;
步骤1-2:通过卷积操作将双流特征的HW维度压缩形成二维特征
Figure 951800DEST_PATH_IMAGE002
,将其作 为金字塔特征的基本单元;
步骤2:搭建金字塔模块,将双流视频特征编码分别输入到金字塔结构中,手动为不同粒度特征进行位置编码,获得多层级的特征表示;
步骤2-1:构建金字塔模块,将
Figure 390872DEST_PATH_IMAGE002
特征
Figure 680515DEST_PATH_IMAGE003
作为金字塔底部特征,利用多个时间 维度卷积核合并时间维度,并浓缩通道维度信息,得到
Figure 179629DEST_PATH_IMAGE004
多级金字塔 特征,l表示最底层,n代表除去金字塔底层的层数;
步骤2-2:通过设计位置嵌入函数手动为时间序列中的每个节点嵌入带有前后顺序的位置信息,为金字塔特征每一层级嵌入位置信息;
所述为金字塔特征每一层级嵌入位置信息具体步骤如下:
金字塔任意一层特征为
Figure 72499DEST_PATH_IMAGE005
,其对应嵌入的位置信息为
Figure 315261DEST_PATH_IMAGE006
,其维度与对应层级特征维度 相同,表示为
Figure 727919DEST_PATH_IMAGE007
Figure 397935DEST_PATH_IMAGE008
具体表示如下:
Figure 246942DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
其中
Figure 27816DEST_PATH_IMAGE011
表示时间维度上的位置,e表示编码的维度,e的取值范围为[0~c),c表示通道 维度大小;每个时间位置都对应唯一的位置编码,将位置编码嵌入到金字塔结构中的每一 层特征
Figure 294981DEST_PATH_IMAGE005
中;具体地,同一层级的位置编码与对应特征维度相同,则将位置编码与特征对 应相加;更新得到新的
Figure 135898DEST_PATH_IMAGE005
Figure 737780DEST_PATH_IMAGE012
,两位置间差异
Figure 322345DEST_PATH_IMAGE013
表示为:
Figure 444016DEST_PATH_IMAGE014
ii+n表示任意两时间点位置,更新后的
Figure 455835DEST_PATH_IMAGE005
任意两位置间差异不仅包含运动差异
Figure 748276DEST_PATH_IMAGE015
,还包含了时间位置距离
Figure 870953DEST_PATH_IMAGE016
由于位置函数均由正弦、余弦函数组成,其具体数值通过简单的三角函数公式得出:
Figure 627556DEST_PATH_IMAGE017
Figure 558078DEST_PATH_IMAGE018
步骤3:构建长时动态过去未来注意力模块,将带有位置信息的双流多级金字塔特征作为输入,动态强化重要信息,弱化无关信息;
所述步骤3具体步骤如下:
步骤3-1:将带有位置信息的任意一层RGB或光流金字塔特征
Figure 868974DEST_PATH_IMAGE005
每个时间片段的内容 映射成一个
Figure 998604DEST_PATH_IMAGE019
维度向量,使
Figure 344135DEST_PATH_IMAGE005
具有形状
Figure 697756DEST_PATH_IMAGE020
Figure 246680DEST_PATH_IMAGE021
为金字塔特征任意层的时间长度; 利用注意力模块捕获
Figure 242318DEST_PATH_IMAGE005
中任意两个时间位置之间的相关性
Figure DEST_PATH_IMAGE022
,计算特征的任意 两个位置之间的关系,动态注意力模块定义如下:
Figure 973513DEST_PATH_IMAGE023
其中
Figure 701298DEST_PATH_IMAGE024
为三个映射函数,ij代表任意两位置,
Figure 737518DEST_PATH_IMAGE025
Figure 271268DEST_PATH_IMAGE026
为金字塔同级特征中 任意两个时间点的特征,其中
Figure 591391DEST_PATH_IMAGE027
Figure 286814DEST_PATH_IMAGE025
进行映射并保持其原有维度
Figure 810330DEST_PATH_IMAGE020
Figure 882192DEST_PATH_IMAGE028
Figure 994504DEST_PATH_IMAGE026
进行 映射并保留其原有维度
Figure 126408DEST_PATH_IMAGE020
Figure 386488DEST_PATH_IMAGE029
表示对特征进行转置,使特征序列中任意两点之间建 立关系,
Figure 9843DEST_PATH_IMAGE030
为控制两位置点之间是否有关的指示函数,其被初始化为两部分:
Figure 773400DEST_PATH_IMAGE031
Figure 279467DEST_PATH_IMAGE032
步骤3-2:将更新后的
Figure 761264DEST_PATH_IMAGE033
分为两部分
Figure 174928DEST_PATH_IMAGE034
Figure 74882DEST_PATH_IMAGE035
,并分别与初 始特征
Figure 548589DEST_PATH_IMAGE005
加权
Figure 517682DEST_PATH_IMAGE036
,然后按通道维度拼接;再将前后文关系映 射到通道维度得到特征
Figure 938299DEST_PATH_IMAGE037
,经过池化和卷积得到与初始特征 形状相同的
Figure 676448DEST_PATH_IMAGE038
,与输入初始特征
Figure 337367DEST_PATH_IMAGE005
相加形成最后的输出特征
Figure 793757DEST_PATH_IMAGE039
步骤4:构建粗粒度预测与优化模块,融合双流输出并消除冗余得到最后的定位和分类结果即动作开始结束时间以及动作分类。
2.根据权利要求1所述的基于锚自由和长时注意力感知的视频交互动作检测方法,其特征在于,所述构建粗粒度预测与优化模块,融合双流输出并消除冗余得到最终结果具体步骤如下:
步骤4-1:将步骤3处理后的双流特征分别输入粗粒度预测模块,对每一层级特征
Figure 549223DEST_PATH_IMAGE039
的 每一时间点位进行动作定位和分类,得到分类结果
Figure 610720DEST_PATH_IMAGE040
以及回归结果
Figure 160650DEST_PATH_IMAGE041
,其中
Figure 855068DEST_PATH_IMAGE042
为数据集动作类别数,对于每一时间点有粗粒度预测结果
Figure 679804DEST_PATH_IMAGE043
,其中
Figure 392545DEST_PATH_IMAGE044
表示粗粒度预测动作起止时间,
Figure 582218DEST_PATH_IMAGE045
表示粗粒度预测 动作类别;将初步预测结果输送到细粒度优化模块输出得到分类结果
Figure DEST_PATH_IMAGE046
以及 回归结果
Figure 862519DEST_PATH_IMAGE047
,cls表示分类结果,reg表示回归结果;通过如下方式进行更新得 到每一时间点有优化偏移量,并得到更新后结果
Figure DEST_PATH_IMAGE048
Figure 756526DEST_PATH_IMAGE049
步骤4-2:将双流结果相加融合,利用Soft-NMS方法消除冗余片段得到最终结果。
3.根据权利要求2所述的基于锚自由和长时注意力感知的视频交互动作检测方法,其 特征在于,得到粗粒度预测结果
Figure 792615DEST_PATH_IMAGE043
和细粒度优化结果
Figure 949926DEST_PATH_IMAGE050
后 通过损失函数FocalLoss和L1Loss分别对粗粒度预测和细粒度优化的分类和定位目标函数 优化,其中
Figure 353357DEST_PATH_IMAGE051
表示细粒度预测动作预测偏置,
Figure 254317DEST_PATH_IMAGE052
表示细粒度预测动作偏置类 别;
具体损失函数如下:
Figure 207230DEST_PATH_IMAGE053
其中
Figure 535443DEST_PATH_IMAGE054
为超参数,
Figure DEST_PATH_IMAGE055
Figure 160590DEST_PATH_IMAGE056
分别为粗粒度预测和细粒度优化的损失函数均采用 FocalLoss,
Figure DEST_PATH_IMAGE057
为粗粒度预测起止片段与标签起止片段的IoULoss,
Figure 396399DEST_PATH_IMAGE058
为预测偏置 和标签偏置的L1Loss。
CN202210663949.4A 2022-06-14 2022-06-14 基于锚自由和长时注意力感知的视频交互动作检测方法 Active CN114758285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210663949.4A CN114758285B (zh) 2022-06-14 2022-06-14 基于锚自由和长时注意力感知的视频交互动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210663949.4A CN114758285B (zh) 2022-06-14 2022-06-14 基于锚自由和长时注意力感知的视频交互动作检测方法

Publications (2)

Publication Number Publication Date
CN114758285A CN114758285A (zh) 2022-07-15
CN114758285B true CN114758285B (zh) 2022-10-14

Family

ID=82336247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210663949.4A Active CN114758285B (zh) 2022-06-14 2022-06-14 基于锚自由和长时注意力感知的视频交互动作检测方法

Country Status (1)

Country Link
CN (1) CN114758285B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187917B (zh) * 2022-09-13 2022-11-25 山东建筑大学 基于视频片段检索的无人车历史场景检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897714B (zh) * 2017-03-23 2020-01-14 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN111914731B (zh) * 2020-07-28 2024-01-23 上海电力大学 一种基于自注意力机制的多模态lstm的视频动作预测方法
CN112750122B (zh) * 2021-01-21 2022-08-02 山东省人工智能研究院 基于双流边界感知神经网络的图像篡改区域定位方法
CN112926396B (zh) * 2021-01-28 2022-05-13 杭州电子科技大学 一种基于双流卷积注意力的动作识别方法
CN113255443B (zh) * 2021-04-16 2024-02-09 杭州电子科技大学 一种基于金字塔结构的图注意力网络时序动作定位方法
CN114049582A (zh) * 2021-09-27 2022-02-15 中国科学院信息工程研究所 基于网络结构搜索和背景-动作增强的弱监督行为检测方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Learning Salient Boundary Feature for Anchor-free";Chuming Lin 等;《2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20211102;3320-3329 *
"Learning Temporal Co-Attention Models for Unsupervised Video Action";Guoqiang Gong 等;《2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200805;9816-9825 *

Also Published As

Publication number Publication date
CN114758285A (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN110322446B (zh) 一种基于相似性空间对齐的域自适应语义分割方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN112733656B (zh) 基于多流空间注意力图卷积sru网络的骨架动作识别方法
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN108985298B (zh) 一种基于语义一致性的人体衣物分割方法
Li et al. A review of deep learning methods for pixel-level crack detection
CN110163060B (zh) 图像中人群密度的确定方法及电子设备
CN115311605B (zh) 基于近邻一致性和对比学习的半监督视频分类方法及系统
CN114758285B (zh) 基于锚自由和长时注意力感知的视频交互动作检测方法
Tao et al. An adaptive frame selection network with enhanced dilated convolution for video smoke recognition
Hu et al. RGB-D image multi-target detection method based on 3D DSF R-CNN
CN115222998A (zh) 一种图像分类方法
Aldhaheri et al. MACC Net: Multi-task attention crowd counting network
CN111126155A (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN116934796A (zh) 基于孪生残差注意力聚合网络的视觉目标跟踪方法
Xiong et al. TFA-CNN: an efficient method for dealing with crowding and noise problems in crowd counting
Qi et al. TCNet: A novel triple-cooperative network for video object detection
CN113283393B (zh) 基于图像组与两流网络的Deepfake视频检测方法
Xu et al. ESNet: An efficient framework for superpixel segmentation
Wu et al. A domain generalization pedestrian re-identification algorithm based on meta-graph aware
CN113313210A (zh) 用于数据处理的方法和设备
Mi et al. Sniffer-Net: quantitative evaluation of smoke in the wild based on spatial–temporal motion spectrum

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant