CN111291647B - 基于多尺度卷积核和超事件模块的单阶段动作定位方法 - Google Patents

基于多尺度卷积核和超事件模块的单阶段动作定位方法 Download PDF

Info

Publication number
CN111291647B
CN111291647B CN202010068403.5A CN202010068403A CN111291647B CN 111291647 B CN111291647 B CN 111291647B CN 202010068403 A CN202010068403 A CN 202010068403A CN 111291647 B CN111291647 B CN 111291647B
Authority
CN
China
Prior art keywords
time
layer
video space
multiplied
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010068403.5A
Other languages
English (en)
Other versions
CN111291647A (zh
Inventor
马苗
陈小秋
任杰
杨楷芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN202010068403.5A priority Critical patent/CN111291647B/zh
Publication of CN111291647A publication Critical patent/CN111291647A/zh
Application granted granted Critical
Publication of CN111291647B publication Critical patent/CN111291647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于多尺度卷积核和超事件模块的单阶段动作定位方法,由提取视频时空特征、特征卷积与降维、构建主干分支和学习超事件表达、构建定位和分类分支、获取预测结果步骤组成。其中主干分支用多尺度深度可分离时序卷积层捕获视频中动作时间跨度的多样性并生成多尺度特征,采用超事件模块学习输入视频的时序结构和上下文信息得到对应的超事件表达,超事件表达与经反卷积操作生成的定位和分类分支中的多尺度特征图融合经定位和分类预测层获取预测结果。本发明与现有的主流单阶段动作定位方法相比,能更好地检测视频中不同时间跨度的动作,学习得到的超事件表达提高了动作定位准确率,可用于视频中动作片段提取。

Description

基于多尺度卷积核和超事件模块的单阶段动作定位方法
技术领域
本发明属于计算机视觉技术领域,具体地涉及到视频检索中的时序动作定位。
背景技术
动作定位旨在检测未经分割的视频中若干类别动作的起止时间及类别。随着互联网发展和个人智能移动设备的大量增加,人们正产生、存储和使用大量的视频。视频中人类行为理解技术在智能安防、视频检索、人机交互和其它领域有广泛地应用价值,得到业界和学术界的关注和研究。
双流网络和三维卷积网络是动作定位常用的两种提取视频特征的网络。双流网络通过引入光流信息来表示视频中的运动信息,与二维卷积网络不同,三维卷积网络可以同时学习视频的时空特征,但由于大规模参数量和视频资源的缺乏导致训练困难。动作定位方法按照是否事先进行动作提议生成可分为两阶段和单阶段两大类。视频中动作片段时长的多样性是导致目前动作定位方法性能不佳的一个主要原因,传统的单阶段动作定位方法使用固定尺度卷积核的一维时序卷积层不能有效地捕获动作片段时长的多样性。视频中的时序结构和上下文信息对于得到精确的动作起止时间和分类结果十分重要。为此,Wang等人提出两阶段的SSN网络,通过将动作提议分为开始、持续和结束三个阶段来进行时序结构分析,通过扩展动作提议的时长获取上下文信息。两阶段的TAL-Net网络通过在生成动作提议和分类时扩大感受野来编码时序上下文信息。然而,上述两阶段检测方法只关注了局部的上下文信息却忽略了整段视频中丰富的时序结构和上下文信息。单阶段检测方法由于同时进行动作提议生成和分类的特性,不能有效地利用动作提议对应的时序结构和上下文信息。
针对上述单阶段动作定位方法存在的技术问题,本发明提出基于多尺度卷积核和超事件模块的单阶段动作定位方法对视频中的动作进行定位。
发明内容
本发明所要解决的技术问题在于克服上述现有技术的缺点,提供一种方法简单、定位速度快、定位精度高的基于多尺度卷积核和超事件模块的单阶段动作定位方法。
解决上述技术问题所采用的技术方案是由下述步骤组成:
(1)提取视频时空特征
将视频抽取为图像帧序列和光流帧序列,图像帧序列和光流帧序列分别采用滑动窗口方法以窗口大小1024帧、步长256帧划分为帧序列片段,送入三维卷积网络提取得到128×1204维的视频时空特征。
(2)特征卷积与降维
对提取的视频时空特征经两层一维时序卷积层对特征进行卷积操作,经第一层最大池化层进行池化操作将特征时间维度降低一半得到64×1024维的视频时空特征,经维度调整后得到64×1×1×1024维的输出视频时空特征。
(3)构建主干分支和学习超事件表达
将3个多尺度深度可分离时序卷积层串连构建成主干分支(1),输出视频时空特征经3个串连的多尺度深度可分离时序卷积层生成32×1×1×1280、16×1×1×1600、8×1×1×2000三种不同尺度的视频时空特征,每个多尺度深度可分离时序卷积层对应输出一种尺度的视频时空特征;每个多尺度深度可分离时序卷积层的输出视频时空特征经其后的超事件模块学习视频时空特征对应的超事件表达,超事件表达中包含输入视频的时序结构和上下文信息。
(4)构建定位和分类分支
1)主干分支(1)中3个多尺度深度可分离时序卷积层输出视频时空特征经卷积核大小为1×1×1的时序卷积层将特征通道数扩大至2480后得到时间维度为32、16、8,通道数为2480的32×1×1×2480、16×1×1×2480、8×1×1×2480的三种输出视频时空特征。
2)使用一维时序卷积层对三种输出视频时空特征进行卷积操作;主干分支(1)中第3层输出视频时空特征经卷积操作后生成8×1×1×2480维的视频时空特征作为定位分支(2)和分类分支(3)中第3层的视频时空特征。
3)第3层的视频时空特征经反卷积层将时间维度扩大2倍得到16×1×1×2480维的视频时空特征,和主干分支(1)第2层16×1×1×2480维的视频时空特征进行通道相加生成定位分支(2)和分类分支(3)中第2层的视频时空特征;第2层的视频时空特征用相同的方法得到32×1×1×2480维的视频时空特征,和主干分支(1)第1层32×1×1×2480维的视频时空特征进行通道相加生成定位分支(2)和分类分支(3)中第1层的视频时空特征。
(5)获取预测结果
1)为3个分支中每层视频时空特征对应的每个时间维度设定长宽比RS为{0.5,0.75,1,1.5,2}的动作提议,每个分支的三层输出视频时空特征对应的尺度BS为{1/16,1/8,1/4},长宽比RS与尺度BS的乘积得到3个分支中每层视频时空特征对应的动作提议的时长。
2)训练和测试时将定位分支(2)和分类分支(3)三层视频时空特征分别与主干分支(1)中学习得到的超事件表达按通道先后顺序拼接送入分类预测层和定位预测层生成预测结果;对于每个动作提议,由下式得到预测结果:
Figure BDA0002376618310000031
Figure BDA0002376618310000032
式中μC和μW分别为设定的中心点和宽度,α1和α2为权重,ΔC和ΔW分别为预测的提议中心和宽度坐标偏移值,
Figure BDA0002376618310000033
Figure BDA0002376618310000034
为预测的动作提议中心和宽度;
3)将预测的动作提议中心和宽度在测试时,使用阈值为0.2的非极大值抑制策略去除冗余,得到预测结果。
本发明的特征卷积与降维步骤(2)为:对提取的视频时空特征经两层卷积核大小为5、步长为1的一维时序卷积层对特征进行卷积操作,经第一层池化核大小为4、步长为2的最大池化层进行池化操作将特征时间维度降低一半得到64×1024维的视频时空特征,经维度调整后得到64×1×1×1024维的输出视频时空特征。
在本发明的构建主干分支(1)和学习超事件表达步骤(3)中,所述的生成32×1×1×1280、16×1×1×1600、8×1×1×2000三种不同尺度的视频时空特征的方法如下:
1)将64×1×1×1024维的视频时空特征输入第1个多尺度深度可分离时序卷积层,按特征通道将输出视频时空特征分为4组,每组视频时空特征维度为64×1×1×256。
2)使用时序卷积模块对每组输入视频时空特征进行卷积操作,时序卷积模块由5个并行的分支构成,其中第1个分支使用池化核大小为2、步长为1的最大池化层对输入视频时空特征进行池化操作,第2、3、4个分支分别使用卷积核大小为3、5、7的一维时序卷积层对视频时空特征进行卷积操作;在每个分支后连接卷积核大小为1×1的二维卷积层,5个分支的输出视频时空特征按分支的先后顺序依次拼接得到每组输入视频时空特征对应的输出视频时空特征。
3)4组输出视频时空特征按分组的先后顺序依次拼接,打乱特征通道顺序来交互不同通道间的信息。
4)特征通道顺序打乱后的视频时空特征经池化核大小为2,步长为1的最大池化层进行池化操作将特征时间维度降低一半,得到第1个多尺度深度可分离时序卷积层32×1×1×1280维的输出视频时空特征。
5)重复2次步骤1)~4),生成主干分支(1),即三种不同尺度的视频时空特征。
在本发明的构建主干分支(1)和学习超事件表达步骤(3)中,所述的超事件模块学习视频时空特征对应的超事件表达方法如下:
1)每2~5个柯西分布构建成1个时序结构滤波器Fm,共构建成2~5个时序滤波器Fm;每个时序结构滤波器Fm由下式确定:
Figure BDA0002376618310000041
Figure BDA0002376618310000042
Figure BDA0002376618310000043
式中t为某一时刻、t∈{1,2,...,T},T是多尺度深度可分离时序卷积层输出视频时空特征时间维度、为有限的正整数;n为某一时序结构滤波器、n∈{1,2,...,N},N是时序结构滤波器的个数、为有限的正整数;xn和γn分别为具体某一柯西分布的中心位置和宽度,
Figure BDA0002376618310000051
Figure BDA0002376618310000052
分别为多个柯西分布中心位置和宽度的集合,tanh为激活函数,exp为指数函数,Zn为归一化常数。
2)将得到的2~5个时序结构滤波器Fm与多尺度深度可分离时序卷积层的输出视频时空特征进行矩阵相乘得到中间特征,中间特征与通过注意力机制学习得到的的软注意力权重,进行矩阵相乘,得到超事件表达SC,具体方法如下:
Figure BDA0002376618310000053
Figure BDA0002376618310000054
式中M为时序结构滤波器Fm的个数,T为多尺度深度可分离时序卷积层输出视频时空特征时间维度,Vt表示多尺度深度可分离时序卷积层输出视频时空特征,Wc,m和Wc,k分别为第m个和第k个时序结构滤波器Fm对应的权重,Ac,m表示第m个时序结构滤波器Fm对应的软注意力权重,exp为指数函数。
在步骤1)中,最佳每3个柯西分布构建成1个时序结构滤波器Fm,共构建成3个时序滤波器Fm
本发明的构建定位和分类分支步骤(4)的步骤2)为:使用卷积核大小为3、步长为1的一维时序卷积层对三种输出视频时空特征进行卷积操作;主干分支中第3层输出视频时空特征经卷积操作后生成8×1×1×2480维的视频时空特征作为定位分支和分类分支中第3层的视频时空特征。
所述的构建定位和分类分支步骤(4)的步骤3)为:第3层的视频时空特征经卷积核大小为4、步长为2的反卷积层将时间维度扩大2倍得到16×1×1×2480维的视频时空特征,和主干分支第2层16×1×1×2480维的视频时空特征进行通道相加生成定位分支和分类分支中第2层的视频时空特征;第2层的视频时空特征用相同的方法得到32×1×1×2480维的视频时空特征,和主干分支第1层32×1×1×2480维的视频时空特征进行通道相加生成定位分支和分类分支中第1层的视频时空特征。
由于本发明采用三维卷积提取视频的时空特征,用多尺度深度可分离时序卷积层构成主干分支,采用超事件模块学习输入视频的时序结构和上下文信息,对视频进行动作定位。本发明与主流的两阶段方法和单阶段方法相比,具有方法简单、定位速度快、定位精度高等优点,可对时效性要求比较高的视频进行动作定位。
附图说明
图1本发明实施例1的工艺流程图。
图2是图1中构建定位和分类分支的工艺流程图。
图3本发明实施例1方法与Decouple-SSAD网络的对比实验结果图。
图4本发明方法的可视化实验结果图。
具体实施方式
下面结合附图和实例对本发明进一步详细说明,但本发明不限于下述实施例。
实施例1
本实施例的视频来自THUMOS14数据集,数据集中包含1010个验证集视频和1574个测试集视频,总时长超过24小时,共20个动作类别。其中验证集包含200个未经分割且带有时间标注的视频,测试集包含213个未经分割且带有时间标注的视频。基于多尺度卷积核和超事件模块的单阶段动作定位方法步骤如下(如图1所示):
(1)提取视频时空特征
将视频抽取为图像帧序列和光流帧序列,图像帧序列和光流帧序列分别采用滑动窗口方法以窗口大小1024帧、步长256帧划分为帧序列片段,送入三维卷积网络提取得到128×1204维的视频时空特征。
(2)特征卷积与降维
对提取的视频时空特征经两层卷积核大小为5、步长为1的一维时序卷积层对特征进行卷积操作,经第一层池化核大小为4、步长为2的最大池化层进行池化操作将特征时间维度降低一半得到64×1024维的视频时空特征,经维度调整后得到64×1×1×1024维的输出视频时空特征。
(3)构建主干分支和学习超事件表达
将3个多尺度深度可分离时序卷积层串连构建成主干分支1,输出视频时空特征经3个串连的多尺度深度可分离时序卷积层生成32×1×1×1280、16×1×1×1600、8×1×1×2000三种不同尺度的视频时空特征,每个多尺度深度可分离时序卷积层对应输出一种尺度的视频时空特征;每个多尺度深度可分离时序卷积层的输出视频时空特征经其后的超事件模块学习视频时空特征对应的超事件表达,超事件表达中包含输入视频的时序结构和上下文信息。
上述的生成32×1×1×1280、16×1×1×1600、8×1×1×2000三种不同尺度的视频时空特征的方法如下:
1)将64×1×1×1024维的视频时空特征输入第1个多尺度深度可分离时序卷积层,按特征通道将输出视频时空特征分为4组,每组视频时空特征维度为64×1×1×256。
2)使用时序卷积模块对每组输入视频时空特征进行卷积操作,时序卷积模块由5个并行的分支构成,其中第1个分支使用池化核大小为2、步长为1的最大池化层对输入视频时空特征进行池化操作,第2、3、4个分支分别使用卷积核大小为3、5、7的一维时序卷积层对视频时空特征进行卷积操作;在每个分支后连接卷积核大小为1×1的二维卷积层用于增强卷积和池化操作后特征的非线性表达能力,5个分支的输出视频时空特征按分支的先后顺序依次拼接得到每组输入视频时空特征对应的输出视频时空特征。
3)4组输出视频时空特征按分组的先后顺序依次拼接,打乱特征通道顺序来交互不同通道间的信息。
4)特征通道顺序打乱后的视频时空特征经池化核大小为2,步长为1的最大池化层进行池化操作将特征时间维度降低一半,得到第1个多尺度深度可分离时序卷积层32×1×1×1280维的输出视频时空特征。
5)重复2次步骤1)~4),生成主干分支1,即三种不同尺度的视频时空特征。
上述的超事件模块学习视频时空特征对应的超事件表达方法如下:
1)每3个柯西分布构建成1个时序结构滤波器Fm,共构建成3个时序滤波器Fm;每个时序结构滤波器Fm由下式确定:
Figure BDA0002376618310000081
Figure BDA0002376618310000082
Figure BDA0002376618310000083
式中t为某一时刻、t∈{1,2,...,T},T是多尺度深度可分离时序卷积层输出视频时空特征时间维度、为有限的正整数;n为某一时序结构滤波器、n∈{1,2,...,N},N是时序结构滤波器的个数、为有限的正整数;xn和γn分别为具体某一柯西分布的中心位置和宽度,
Figure BDA0002376618310000084
Figure BDA0002376618310000085
分别为多个柯西分布中心位置和宽度的集合,tanh为激活函数,exp为指数函数,Zn为归一化常数。
2)将得到的3个时序结构滤波器Fm与多尺度深度可分离时序卷积层的输出视频时空特征进行矩阵相乘得到中间特征,中间特征与通过注意力机制学习得到的的软注意力权重,进行矩阵相乘,得到超事件表达SC,具体方法如下:
Figure BDA0002376618310000086
Figure BDA0002376618310000087
式中M为时序结构滤波器Fm的个数,T为多尺度深度可分离时序卷积层输出视频时空特征时间维度,Vt表示多尺度深度可分离时序卷积层输出视频时空特征,Wc,m和Wc,k分别为第m个和第k个时序结构滤波器Fm对应的权重,Ac,m表示第m个时序结构滤波器Fm对应的软注意力权重,exp为指数函数。
(4)构建定位和分类分支
如图2所示,本实施例的构建定位和分类分支步骤如下:
1)主干分支1中3个多尺度深度可分离时序卷积层输出视频时空特征经卷积核大小为1×1×1的时序卷积层将特征通道数扩大至2480后得到时间维度为32、16、8,通道数为2480的32×1×1×2480、16×1×1×2480、8×1×1×2480的三种输出视频时空特征。
2)使用卷积核大小为3、步长为1的一维时序卷积层对三种输出视频时空特征进行卷积操作;主干分支1中第3层输出视频时空特征经卷积操作后生成8×1×1×2480维的视频时空特征作为定位分支2和分类分支3中第3层的视频时空特征。
3)第3层的视频时空特征经卷积核大小为4、步长为2的反卷积层将时间维度扩大2倍得到16×1×1×2480维的视频时空特征,和主干分支1第2层16×1×1×2480维的视频时空特征进行通道相加生成定位分支2和分类分支3中第2层的视频时空特征;第2层的视频时空特征用相同的方法得到32×1×1×2480维的视频时空特征,和主干分支1第1层32×1×1×2480维的视频时空特征进行通道相加生成定位分支2和分类分支3中第1层的视频时空特征。
(5)获取预测结果
1)为3个分支中每层视频时空特征对应的每个时间维度设定长宽比RS为{0.5,0.75,1,1.5,2}的动作提议,每个分支的三层输出视频时空特征对应的尺度BS为{1/16,1/8,1/4},长宽比RS与尺度BS的乘积得到3个分支中每层视频时空特征对应的动作提议的时长。
2)训练和测试时将定位分支2和分类分支3三层视频时空特征分别与主干分支1中学习得到的超事件表达按通道先后顺序拼接送入分类预测层和定位预测层生成预测结果。对于每个动作提议,由下式得到预测结果:
Figure BDA0002376618310000091
Figure BDA0002376618310000092
式中μC和μW分别为设定的中心点和宽度,α1和α2为权重,ΔC和ΔW分别为预测的提议中心和宽度坐标偏移值,
Figure BDA0002376618310000093
Figure BDA0002376618310000094
为预测的动作提议中心和宽度。
3)将预测的动作提议中心和宽度在测试时,使用阈值为0.2的非极大值抑制策略去除冗余,得到预测结果。
实现基于多尺度卷积核和超事件模块的单阶段动作定位。
实施例2
本实施例的视频来自THUMOS14数据集,数据集中包含1010个验证集视频和1574个测试集视频,总时长超过24小时,共20个动作类别。其中验证集包含200个未经分割且带有时间标注的视频,测试集包含213个未经分割且带有时间标注的视频。基于多尺度卷积核和超事件模块的单阶段动作定位方法步骤如下:
(1)提取视频时空特征
该步骤与实施例1相同。
(2)特征卷积与降维
该步骤与实施例1相同。
(3)构建主干分支和学习超事件表达
本实施例的超事件模块学习视频时空特征对应的超事件表达方法如下:(权4补入)
在步骤1)中,每2个柯西分布构建成1个时序结构滤波器Fm,共构建成2个时序滤波器Fm。该步骤的其它步骤与实施例1相同。
在步骤2)中,将得到的2个时序结构滤波器Fm与多尺度深度可分离时序卷积层的输出视频时空特征进行矩阵相乘得到中间特征,中间特征与通过注意力机制学习得到的的软注意力权重,进行矩阵相乘,得到超事件表达SC。该步骤与实施例1相同。
构建主干分支和学习超事件表达步骤(3)中的其它步骤与实施例1相同。
其它步骤与实施例1相同。实现基于多尺度卷积核和超事件模块的单阶段动作定位。
实施例3
本实施例的视频来自THUMOS14数据集,数据集中包含1010个验证集视频和1574个测试集视频,总时长超过24小时,共20个动作类别。其中验证集包含200个未经分割且带有时间标注的视频,测试集包含213个未经分割且带有时间标注的视频。基于多尺度卷积核和超事件模块的单阶段动作定位方法步骤如下:
(1)提取视频时空特征
该步骤与实施例1相同。
(2)特征卷积与降维
该步骤与实施例1相同。
(3)构建主干分支和学习超事件表达
本实施例的超事件模块学习视频时空特征对应的超事件表达方法如下:
在步骤1)中,每5个柯西分布构建成1个时序结构滤波器Fm,共构建成5个时序滤波器Fm。该步骤的其它步骤与实施例1相同。
在步骤2)中,将得到的5个时序结构滤波器Fm与多尺度深度可分离时序卷积层的输出视频时空特征进行矩阵相乘得到中间特征,中间特征与通过注意力机制学习得到的的软注意力权重,进行矩阵相乘,得到超事件表达SC。该步骤与实施例1相同。
构建主干分支和学习超事件表达步骤(3)中的其它步骤与实施例1相同。
其它步骤与实施例1相同。实现基于多尺度卷积核和超事件模块的单阶段动作定位。
为了验证本发明的有益效果,发明人采用本发明实施例1的方法与Decouple-SSAD(UCF101数据集预训练)和Decouple-SSAD(Kinetics数据集预训练)方法进行了对比实验,用训练后的模型在THUMOS14测试集使用给定的评估代码测试模型精度,采用时间交并比阈值为0.5的平均正确率mAP作为评价指标,实验结果见图3。在图3中,横坐标表示THUMOS14数据集20个动作类别的AP值,纵坐标表示交并比阈值为0.5时的AP值,本发明的平均正确率mAP值为44.3%。
动作Javelin Throw的定位结果如图4所示,在图4中,Ground Truth为真实动作起止时间和类别,Detection为本发明预测的动作起止时间和类别,横坐标为时间,由图4可见本发明可以精确地检测出视频中动作的起止时间及类别。

Claims (6)

1.一种基于多尺度卷积核和超事件模块的单阶段动作定位方法,其特征在于由下述步骤组成:
(1)提取视频时空特征
将视频抽取为图像帧序列和光流帧序列,图像帧序列和光流帧序列分别采用滑动窗口方法以窗口大小1024帧、步长256帧划分为帧序列片段,送入三维卷积网络提取得到128×1204维的视频时空特征;
(2)特征卷积与降维
对提取的视频时空特征经两层一维时序卷积层对特征进行卷积操作,经第一层最大池化层进行池化操作将特征时间维度降低一半得到64×1024维的视频时空特征,经维度调整后得到64×1×1×1024维的输出视频时空特征;
(3)构建主干分支和学习超事件表达
将3个多尺度深度可分离时序卷积层串连构建成主干分支(1),输出视频时空特征经3个串连的多尺度深度可分离时序卷积层生成32×1×1×1280、16×1×1×1600、8×1×1×2000三种不同尺度的视频时空特征,每个多尺度深度可分离时序卷积层对应输出一种尺度的视频时空特征;每个多尺度深度可分离时序卷积层的输出视频时空特征经其后的超事件模块学习视频时空特征对应的超事件表达,超事件表达中包含输入视频的时序结构和上下文信息;
(4)构建定位和分类分支
1)主干分支(1)中3个多尺度深度可分离时序卷积层输出视频时空特征经卷积核大小为1×1×1的时序卷积层将特征通道数扩大至2480后得到时间维度为32、16、8,通道数为2480的32×1×1×2480、16×1×1×2480、8×1×1×2480的三种输出视频时空特征;
2)使用一维时序卷积层对三种输出视频时空特征进行卷积操作;主干分支(1)中第3层输出视频时空特征经卷积操作后生成8×1×1×2480维的视频时空特征作为定位分支(2)和分类分支(3)中第3层的视频时空特征;
3)第3层的视频时空特征经反卷积层将时间维度扩大2倍得到16×1×1×2480维的视频时空特征,和主干分支(1)第2层16×1×1×2480维的视频时空特征进行通道相加生成定位分支(2)和分类分支(3)中第2层的视频时空特征;第2层的视频时空特征用相同的方法得到32×1×1×2480维的视频时空特征,和主干分支(1)第1层32×1×1×2480维的视频时空特征进行通道相加生成定位分支(2)和分类分支(3)中第1层的视频时空特征;
(5)获取预测结果
1)为3个分支中每层视频时空特征对应的每个时间维度设定长宽比RS为{0.5,0.75,1,1.5,2}的动作提议,每个分支的三层输出视频时空特征对应的尺度BS为{1/16,1/8,1/4},长宽比RS与尺度BS的乘积得到3个分支中每层视频时空特征对应的动作提议的时长;
2)训练和测试时将定位分支(2)和分类分支(3)三层视频时空特征分别与主干分支(1)中学习得到的超事件表达按通道先后顺序拼接送入分类预测层和定位预测层生成预测结果;对于每个动作提议,由下式得到预测结果:
Figure FDA0002376618300000021
Figure FDA0002376618300000022
式中μC和μW分别为设定的中心点和宽度,α1和α2为权重,ΔC和ΔW分别为预测的提议中心和宽度坐标偏移值,
Figure FDA0002376618300000023
Figure FDA0002376618300000024
为预测的动作提议中心和宽度;
3)将预测的动作提议中心和宽度在测试时,使用阈值为0.2的非极大值抑制策略去除冗余,得到预测结果。
2.根据权利要求1所述的基于多尺度卷积核和超事件模块的单阶段动作定位方法,其特征在于所述的特征卷积与降维步骤(2)为:对提取的视频时空特征经两层卷积核大小为5、步长为1的一维时序卷积层对特征进行卷积操作,经第一层池化核大小为4、步长为2的最大池化层进行池化操作将特征时间维度降低一半得到64×1024维的视频时空特征,经维度调整后得到64×1×1×1024维的输出视频时空特征。
3.根据权利要求1所述的基于多尺度卷积核和超事件模块的单阶段动作定位方法,其特征在于在构建主干分支(1)和学习超事件表达步骤(3)中,所述的生成32×1×1×1280、16×1×1×1600、8×1×1×2000三种不同尺度的视频时空特征的方法如下:
1)将64×1×1×1024维的视频时空特征输入第1个多尺度深度可分离时序卷积层,按特征通道将输出视频时空特征分为4组,每组视频时空特征维度为64×1×1×256;
2)使用时序卷积模块对每组输入视频时空特征进行卷积操作,时序卷积模块由5个并行的分支构成,其中第1个分支使用池化核大小为2、步长为1的最大池化层对输入视频时空特征进行池化操作,第2、3、4个分支分别使用卷积核大小为3、5、7的一维时序卷积层对视频时空特征进行卷积操作;在每个分支后连接卷积核大小为1×1的二维卷积层,5个分支的输出视频时空特征按分支的先后顺序依次拼接得到每组输入视频时空特征对应的输出视频时空特征;
3)4组输出视频时空特征按分组的先后顺序依次拼接,打乱特征通道顺序来交互不同通道间的信息;
4)特征通道顺序打乱后的视频时空特征经池化核大小为2,步长为1的最大池化层进行池化操作将特征时间维度降低一半,得到第1个多尺度深度可分离时序卷积层32×1×1×1280维的输出视频时空特征;
5)重复2次步骤1)~4),生成主干分支(1),即三种不同尺度的视频时空特征。
4.根据权利要求1所述的基于多尺度卷积核和超事件模块的单阶段动作定位方法,其特征在于在构建主干分支(1)和学习超事件表达步骤(3)中,所述的超事件模块学习视频时空特征对应的超事件表达方法如下:
1)每2~5个柯西分布构建成1个时序结构滤波器Fm,共构建成2~5个时序滤波器Fm;每个时序结构滤波器Fm由下式确定:
Figure FDA0002376618300000031
Figure FDA0002376618300000032
Figure FDA0002376618300000033
式中t为某一时刻、t∈{1,2,...,T},T是多尺度深度可分离时序卷积层输出视频时空特征时间维度、为有限的正整数;n为某一时序结构滤波器、n∈{1,2,...,N},N是时序结构滤波器的个数、为有限的正整数;xn和γn分别为具体某一柯西分布的中心位置和宽度,
Figure FDA0002376618300000041
Figure FDA0002376618300000042
分别为多个柯西分布中心位置和宽度的集合,tanh为激活函数,exp为指数函数,Zn为归一化常数;
2)将得到的2~5个时序结构滤波器Fm与多尺度深度可分离时序卷积层的输出视频时空特征进行矩阵相乘得到中间特征,中间特征与通过注意力机制学习得到的的软注意力权重,进行矩阵相乘,得到超事件表达SC,具体方法如下:
Figure FDA0002376618300000043
Figure FDA0002376618300000044
式中M为时序结构滤波器Fm的个数,T为多尺度深度可分离时序卷积层输出视频时空特征时间维度,Vt表示多尺度深度可分离时序卷积层输出视频时空特征,Wc,m和Wc,k分别为第m个和第k个时序结构滤波器Fm对应的权重,Ac,m表示第m个时序结构滤波器Fm对应的软注意力权重,exp为指数函数。
5.根据权利要求4所述的基于多尺度卷积核和超事件模块的单阶段动作定位方法,其特征在于:在步骤1)中,每3个柯西分布构建成1个时序结构滤波器Fm,共构建成3个时序滤波器Fm
6.根据权利要求1所述的基于多尺度卷积核和超事件模块的单阶段动作定位方法,其特征在于所述的构建定位和分类分支步骤(4)的步骤2)为:使用卷积核大小为3、步长为1的一维时序卷积层对三种输出视频时空特征进行卷积操作;主干分支中第3层输出视频时空特征经卷积操作后生成8×1×1×2480维的视频时空特征作为定位分支和分类分支中第3层的视频时空特征;
所述的构建定位和分类分支步骤(4)的步骤3)为:第3层的视频时空特征经卷积核大小为4、步长为2的反卷积层将时间维度扩大2倍得到16×1×1×2480维的视频时空特征,和主干分支第2层16×1×1×2480维的视频时空特征进行通道相加生成定位分支和分类分支中第2层的视频时空特征;第2层的视频时空特征用相同的方法得到32×1×1×2480维的视频时空特征,和主干分支第1层32×1×1×2480维的视频时空特征进行通道相加生成定位分支和分类分支中第1层的视频时空特征。
CN202010068403.5A 2020-01-21 2020-01-21 基于多尺度卷积核和超事件模块的单阶段动作定位方法 Active CN111291647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010068403.5A CN111291647B (zh) 2020-01-21 2020-01-21 基于多尺度卷积核和超事件模块的单阶段动作定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010068403.5A CN111291647B (zh) 2020-01-21 2020-01-21 基于多尺度卷积核和超事件模块的单阶段动作定位方法

Publications (2)

Publication Number Publication Date
CN111291647A CN111291647A (zh) 2020-06-16
CN111291647B true CN111291647B (zh) 2023-02-21

Family

ID=71025487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010068403.5A Active CN111291647B (zh) 2020-01-21 2020-01-21 基于多尺度卷积核和超事件模块的单阶段动作定位方法

Country Status (1)

Country Link
CN (1) CN111291647B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001479B (zh) * 2020-07-18 2024-04-16 北京达佳互联信息技术有限公司 基于深度学习模型的处理方法、系统及电子设备
CN112949544A (zh) * 2021-03-17 2021-06-11 上海大学 一种基于3d卷积网络的动作时序检测方法
CN113378974A (zh) * 2021-06-29 2021-09-10 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN113283400B (zh) * 2021-07-19 2021-11-12 成都考拉悠然科技有限公司 一种基于选择性超图卷积网络的骨架动作识别方法
CN113537164B (zh) * 2021-09-15 2021-12-07 江西科技学院 一种实时的动作时序定位方法
CN114882403B (zh) * 2022-05-05 2022-12-02 杭州电子科技大学 基于渐进注意力超图的视频时空动作定位方法
CN115690170A (zh) * 2022-10-08 2023-02-03 苏州大学 一种针对不同尺度目标自适应的光流估计的方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11147459B2 (en) * 2018-01-05 2021-10-19 CareBand Inc. Wearable electronic device and system for tracking location and identifying changes in salient indicators of patient health
CN109389055B (zh) * 2018-09-21 2021-07-20 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN110689021A (zh) * 2019-10-17 2020-01-14 哈尔滨理工大学 一种基于深度学习的低可见度环境下实时目标检测方法

Also Published As

Publication number Publication date
CN111291647A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111291647B (zh) 基于多尺度卷积核和超事件模块的单阶段动作定位方法
CN111652903B (zh) 一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法
CN111611847B (zh) 基于尺度注意力空洞卷积网络的视频动作检测方法
CN109858407B (zh) 一种基于多种信息流特征和异步融合的视频行为识别方法
CN109886225A (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
US11804036B2 (en) Person re-identification method based on perspective-guided multi-adversarial attention
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
Li et al. Small-footprint keyword spotting with multi-scale temporal convolution
CN113283298B (zh) 基于时间注意力机制和双流网络的实时行为识别方法
CN111046821A (zh) 一种视频行为识别方法、系统及电子设备
CN112784730A (zh) 一种基于时域卷积网络的多模态情感识别方法
CN110852295B (zh) 一种基于多任务监督学习的视频行为识别方法
CN114283320B (zh) 基于全卷积的无分支结构目标检测方法
CN113807318A (zh) 一种基于双流卷积神经网络和双向gru的动作识别方法
CN115861646A (zh) 一种基于结构重参数化的轻量级目标检测方法及系统
CN114757975A (zh) 基于transformer与图卷积网络的行人轨迹预测方法
CN113627504B (zh) 基于生成对抗网络的多模态多尺度特征融合目标检测方法
CN117396892A (zh) 一种硬件感知神经网络设计
CN112364852A (zh) 融合全局信息的动作视频段提取方法
CN110414338B (zh) 基于稀疏注意力网络的行人再辨识方法
Qiao et al. Two-Stream Convolutional Neural Network for Video Action Recognition.
CN114550047B (zh) 一种行为速率引导的视频行为识别方法
CN116229323A (zh) 一种基于改进的深度残差网络的人体行为识别方法
CN115661861A (zh) 基于动态时序多维自适应图卷积网络的骨架行为识别方法
KR102340387B1 (ko) 뇌 연결성 학습 방법 및 이를 위한 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant