CN111178344A - 一种多尺度时序行为识别方法 - Google Patents

一种多尺度时序行为识别方法 Download PDF

Info

Publication number
CN111178344A
CN111178344A CN202010293090.3A CN202010293090A CN111178344A CN 111178344 A CN111178344 A CN 111178344A CN 202010293090 A CN202010293090 A CN 202010293090A CN 111178344 A CN111178344 A CN 111178344A
Authority
CN
China
Prior art keywords
behavior
network
candidate region
sub
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010293090.3A
Other languages
English (en)
Other versions
CN111178344B (zh
Inventor
雷军
张军
李硕豪
何嘉宇
王风雷
周浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010293090.3A priority Critical patent/CN111178344B/zh
Publication of CN111178344A publication Critical patent/CN111178344A/zh
Application granted granted Critical
Publication of CN111178344B publication Critical patent/CN111178344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多尺度时序行为识别方法,本方法通过建立具有三维卷积特征金字塔结构、候选区域提案子网络和分类子网络的三维卷积特征金字塔网络模型,候选区域提案子网络将产生可能包含行为片段的候选区域,而分类子网将这些候选区域分类为特定的行为类别或背景,并进一步精修这些区域的时间边界,该方法保证了计算效率,使得使用的特征具有统一性,增强了在大范围时间尺度上检测行为的能力,整个网络是可端到端训练的,以便于进行整体优化,这是特征提取和时序行为识别的统一。

Description

一种多尺度时序行为识别方法
技术领域
本发明涉及视觉识别技术领域,特别是指一种多尺度时序行为识别方法。
背景技术
时序行为识别(Temporal action detection)是视觉内容理解中的一项要任务,旨在从未修剪的视频中检测人类行为片段,将该片段分类为几种行为类别之一,并精确地预测其开始和结束时间点。与视频理解中的其他任务(例如行为识别或时序行为提案)相比,它绝对更具挑战性,但更加实用。在现实生活中,大多数需要检测的视频都是具有多个不同行为段的未修剪的长时视频。例如,我们可能需要通过实时检测监视视频来监视监狱中囚犯的行为,或者我们需要在视频网站中过滤带有少儿不宜内容的视频。这些视频持续时间很长,而且总是包含复杂的行为片段;
在行为识别领域,先前的方法着眼于视频中人类行为的特征。例如,改进的密集轨迹(iDT)使用手工的特征和光流特征,这取得较好的效果。后来,许多研究人员尝试通过使用深度神经网络来解决此问题。受二维的卷积网络的启发,有研究中提出了三维卷积网络(C3D)来同时学习空间和时间特征。该网络具有结构简单,时空特征良好结合的优点,但如今,由于视频中人类行为的模糊性和复杂性,时序行为识别的准确率仍处在较低的水平。视频中的行为片段时间跨度通常在几秒到几十秒之间,而大多数现有方法在检测大范围时间尺度上的短时行为片段时都无法取得良好的效果。
发明内容
有鉴于此,本发明的目的在于提出一种多尺度时序行为识别方法,提高检测大范围时间尺度上的短时行为片段时的效果。
基于上述目的本发明提供的一种多尺度时序行为识别方法,包括以下步骤:
建立三维卷积特征金字塔网络模型,三维卷积特征金字塔网络模型包括:三维卷积特征金字塔结构、候选区域提案子网络和分类子网络;
对三维卷积特征金字塔网络模型进行训练;
三维特征金字塔层次结构对输入的视频帧进行编码,并生成多级特征图;
候选区域提案子网络使用多级特征图挑选可能包含行为片段的候选区域;
分类子网络根据候选区域提案子网络挑选出的可能包含行为片段的候选区域,为其分配类别标签,并进一步精修候选区域的时间边界。
优选地,对三维卷积特征金字塔网络模型进行训练包括对候选区域提案子网络进行训练和对分类子网络进行训练;
其中,对候选区域提案子网络进行训练包括:
将锚段标定为正/负样本:若锚段与某些真实行为片段有重叠,且交并比高于0.7,或与某些真实行为片段有最高的交并比,则将该锚段标定为正标签,若锚段与所有的真实行为片段的交并比均低于0.3,则将该锚段标记为负样本;
只采用正样本和负样本对候选区域提案子网络进行训练;
对分类子网络进行训练包括:
为每个候选区域分配行为类别标签:如果某候选区域与某真实行为片段具有最高交并比,同时交并比大于0.5,则给该候选区域标定为对应的行为类别标签,若某候选区域与所有真实的行为片段交并比都低于0.5,则将被标定为负标签;
采用分配行为类别标签后的候选区域对分类子网络进行训练。
优选地,对候选区域提案子网络进行训练时,正样本和负样本的数量比为1:1。
优选地,三维特征金字塔层次结构对输入的视频帧进行编码,并生成多级特征图包括:
对输入的视频帧提取时空特征;
使用conv1a到conv5b形成了自下而上的途径;
设定在时间尺度上相同的特征图为同一个金字塔级别的特征图;
通过自上而下的通道和横向连接通道构建特征金字塔结构,生成多级特征图。
优选地,自上而下的通道由多层上采样层组成,横向连接层是卷积核大小为1 x 1x 1 的三维卷积层。
优选地,候选区域提案子网络使用多级特征图挑选可能包含行为片段的候选区域包括:
从三维特征金字塔层次结构生成的每个特征图中生成相应锚段;
为每个锚段分配正或负标签,并对锚段进行初步的边界回归;
应用非极大值抑制法挑选出可能包含行为片段的候选区域。
优选地,分类子网络根据候选区域提案子网络挑选出的可能包含行为片段的候选区域,为其分配类别标签,并进一步精修候选区域的时间边界,包括:
将时间长度不同的可能包含行为片段的候选区域分配到相应的金字塔级别;
三维感兴趣区域池化层从相应的特征图中提取每个可能包含行为片段的候选区域的特征,得到子特征向量;
在每个子特征向量内执行最大池化;
将最大池化后输出特征向量经过一系列全连接层得到行为分类得分和精修后的行为片段起始时间。
优选地,将时间长度不同的可能包含行为片段的候选区域分配到相应的金字塔级别
Figure 847312DEST_PATH_IMAGE001
符合以下公式:
Figure 935354DEST_PATH_IMAGE002
其中,
Figure 904185DEST_PATH_IMAGE003
是候选区域的时间长度,
Figure 509610DEST_PATH_IMAGE004
是某个视频的时间长度,
Figure 709647DEST_PATH_IMAGE005
是一个常数,
Figure 437431DEST_PATH_IMAGE006
是一金字塔级别,用于调整分配给每个级别的候选区域数量。
优选地,本方法还包括:
通过同时优化分类损失和回归损失来训练候选区域提案子网络和分类子网络。
优选地,通过同时优化分类损失和回归损失来训练候选区域提案子网络和分类子网络包括:
使用交叉熵损失函数描述分类损失,使用平滑L1损失函数描述回归损失,一个子网络的联合损失函数如下:
Figure 598285DEST_PATH_IMAGE007
其中
Figure 132035DEST_PATH_IMAGE008
Figure 61945DEST_PATH_IMAGE009
在候选区域提案子网络中代表锚段数,而在分类子网络中代表候选区域数,
Figure 226210DEST_PATH_IMAGE010
是两种损失的权衡因子,
Figure 998994DEST_PATH_IMAGE011
代表锚段/候选区域索引,
Figure 179177DEST_PATH_IMAGE012
是前/背景或某行为的概率预测值,
Figure 619386DEST_PATH_IMAGE013
则代表真实情况,是
Figure 361077DEST_PATH_IMAGE014
网络预测的锚段/候选区域与真实行为片段的偏移值,而
Figure 824419DEST_PATH_IMAGE015
则是锚段/候选区域与真实行为片段的真实偏移值。
从上面所述可以看出,本发明提供的多尺度时序行为识别方法,本方法通过建立具有三维卷积特征金字塔结构、候选区域提案子网络和分类子网络的三维卷积特征金字塔网络模型,候选区域提案子网络将产生可能包含行为片段的候选区域,而分类子网将这些候选区域分类为特定的行为类别或背景,并进一步精修这些区域的时间边界,该方法保证了计算效率,使得使用的特征具有统一性,增强了在大范围时间尺度上检测行为的能力,整个网络是可端到端训练的,以便于进行整体优化,这是特征提取和时序行为识别的统一。
附图说明
图1为本发明实施例的方法流程示意图;
图2为本发明实施例的三维卷积特征金字塔结构示意图;
图3为本发明实施例的三维卷积特征金字塔网络模型示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
一种多尺度时序行为识别方法,包括以下步骤:
S101建立三维卷积特征金字塔网络模型(FPC3D),所述三维卷积特征金字塔网络模型包括:三维卷积特征金字塔结构、候选区域提案子网络和分类子网络;
S102对所述三维卷积特征金字塔网络模型进行训练;
S103三维特征金字塔层次结构对输入的视频帧进行编码,并生成多级特征图;
S104候选区域提案子网络使用所述多级特征图挑选可能包含行为片段的候选区域;
S105分类子网络根据所述候选区域提案子网络挑选出的可能包含行为片段的候选区域,为其分配类别标签,并进一步精修候选区域的时间边界。
本方法通过建立具有三维卷积特征金字塔结构、候选区域提案子网络和分类子网络的三维卷积特征金字塔网络模型,候选区域提案子网络将产生可能包含行为片段的候选区域,而分类子网将这些候选区域分类为特定的行为类别或背景,并进一步精修这些区域的时间边界,该方法保证了计算效率,使得使用的特征具有统一性,增强了在大范围时间尺度上检测行为的能力,整个网络是可端到端训练的,以便于进行整体优化,这是特征提取和时序行为识别的统一。
行为识别本质上是一个分类问题,类似于图像分类。输入是经过修剪的视频,其中包含感兴趣的某个行为实例,输出是该行为的预测类。较早的方法主要基于手工视觉特征。在过去的几年中,由于引入了许多基于卷积神经网络(Convolutional Neural Networks,CNN)的新网络,该领域取得了长足的进步。结合了CNN特征和光流特征的两流卷积网络,使用光流功能的网络通常比不使用光流功能的网络要好,这意味着光流是一个能编码视频中行为的好特征。值得注意的是,之后又提出了一种合并多级特征的方法,即时间池化金字塔,这是一种自下而上的特征融合方法,可同时学习时间和空间特征。三维卷积网络(Convolutional 3D Neural Network,C3D)的最大优势是它的速度,使用单个英伟达1080Ti显卡可以达到600 fps。这使得C3D在实际应用中有很大的应用前景。行为识别的准确性现在处于较高水平,因为它无需考虑精确定位行为片段的问题。
生成时序行为提案是两阶段检测网络的第一步,也是时序行为识别的核心步骤之一。网络上的视频数据集大多设有时序行为提案的任务和比赛。 多阶段卷积神经网络(Multi-stage CNNs,SCNN)使用滑动窗口和3D 卷积网络生成提案。深度行为提案(DeepAction Proposals,DAP)方法使用长短时记忆(Long Short Term Memory,LSTM)网络在视频中进行提案。单流时序行为提案(Single-stream Temporal Action proposals,SST)方法使用新的深度架构生成提案,而无需将视频分成简短的片段。基于时序单元回归网络的时序行为提案(Temporal Unit Regression Network for Temporal Action Proposals,TURN TAP)方法组合时序单元以生成提案,时序行为组合(Temporal ActionnessGrouping,TAG)方法进一步引入了基于TURN的阈值。在区域三维卷积网络(RegionConvolutional 3D Network,R-C3D) 中,提案是通过锚机制生成的。
在未修剪的视频中定位行为片段的任务,这就是时序行为识别的由来。后来,有许多大型数据集应运而生,例如THUMOS'14,Charades和ActivityNet。早期的传统方法通常是通过滑动窗口后加上SVM分类器来完成该任务的,其中许多方法使用改进的密集轨迹或预先训练的DNN特征。
作为一种实施方式,对三维卷积特征金字塔网络模型进行训练包括对候选区域提案子网络进行训练和对分类子网络进行训练;
其中,对候选区域提案子网络进行训练包括:
将锚段标定为正/负样本:若锚段与某些真实行为片段有重叠,且交并比(IoU)高于0.7,或与某些真实行为片段有最高的交并比,则将该锚段标定为正标签,若锚段与所有的真实行为片段的交并比均低于0.3,则将该锚段标记为负样本;
只采用正样本和负样本对候选区域提案子网络进行训练;即除正样本和负样本之外的锚段不会用来训练。
对分类子网络进行训练包括:
为每个候选区域分配行为类别标签:如果某候选区域与某真实行为片段具有最高交并比,同时交并比大于0.5,则给该候选区域标定为对应的行为类别标签,若某候选区域与所有真实的行为片段交并比都低于0.5,则将被标定为负标签;
采用分配行为类别标签后的候选区域对分类子网络进行训练。
作为一种实施方式,对候选区域提案子网络进行训练时,所述正样本和所述负样本的数量比为1:1,由于正样本的数量通常少于负样本的数量,因此我们优先考虑采样出
Figure 434392DEST_PATH_IMAGE016
数量的正样本,如果正样本数量不足,则用负样本补充,总数到
Figure 338894DEST_PATH_IMAGE017
个,举例来说,可以将
Figure 907279DEST_PATH_IMAGE018
值设置为128。
作为一种实施方式,三维特征金字塔层次结构对输入的视频帧进行编码,并生成多级特征图包括:
对输入的视频帧提取时空特征;
使用conv1a到conv5b形成了自下而上的途径;
设定在时间尺度上相同的特征图为同一个金字塔级别的特征图;
通过自上而下的通道和横向连接通道构建特征金字塔结构,生成多级特征图。
使用RGB视频帧作为输入,并在时间尺度上按比例输出多个级别的特征图。具体来说,首先使用三维卷积网络提取时空特征,将其称作基础特征,我们称此过程为自下而上的通道。输入RGB帧的尺寸为
Figure 264442DEST_PATH_IMAGE019
,而基本特征图
Figure 881368DEST_PATH_IMAGE020
的尺寸为
Figure 765011DEST_PATH_IMAGE021
(512为通道数)。三维卷积网络的架构来自经过微调的C3D(三维卷积网络)架构,我们使用conv1a到conv5b形成了自下而上的途径。为了方便起见,我们设定在时间尺度上相同的特征图为同一个级别的特征图,该级别即是网络中的金字塔级别。这样,我们可以通过自上而下的通道和横向连接通道来构建我们的特征金字塔结构。
作为一种实施方式,自上而下的通道由多层上采样层组成,所述横向连接层是卷积核大小为1 x 1 x 1 的三维卷积层。
自上而下的通道可以通过对级别较高,特征更抽象但时间维度上较粗糙的特征图进行上采样来使之成为更高分辨率的特征。虽然横向连接通道提供的是语义信息较低的特征,但这些特征相对来说具有更高的分辨率,与上层特征结合后就具有了丰富的语义信息。每个横向连接层会合并自上而下路径和自下而上路径的同一级别的特征图。横向连接将使用的特征图是基础特征图和在conv3b,conv4b级别的特征图(它们的时间维压缩倍数为
Figure 878198DEST_PATH_IMAGE022
)。
三维特征金字塔层次结构的如图1所示。自上而下的通路从特征图P3开始,该特征图来自
Figure 847291DEST_PATH_IMAGE020
后接的一个有1*1*1卷积核的三维卷积层。一般来说,我们对Pn特征图在时间维度进行两倍的上采样,然后将上采样后的特征图与相应的自下而上的特征图进行合并(自下而上的特征图经历了1*2*2卷积核的3D卷积层来降低空间尺度,并调整通道数)。之后,在合并的特征图上加3*3*3卷积核的3D卷积(称为平滑层)以减少上采样的混叠效应,并将空间尺度从
Figure 674433DEST_PATH_IMAGE023
降至1×1,最终产生该级别特征图Pn-1。重复此过程,直到生成最高分辨率的特征图P1。在我们的网络中,我们总共生成了3个最终的特征图,分别是P1,P2,P3,它们与
Figure 678161DEST_PATH_IMAGE020
Figure 526031DEST_PATH_IMAGE024
Figure 857786DEST_PATH_IMAGE025
分别具有相同的时间尺度。
特征图P1,P2,P3将在候选区域提案子网中使用,并在分类子网中重用。为了适应分类器和回归器的通道数,我们将所有特征图的通道数固定为512。
作为一种实施方式,候选区域提案子网络使用所述多级特征图挑选可能包含行为片段的候选区域包括:
从三维特征金字塔层次结构生成的每个特征图中生成相应锚段;
为每个锚段分配正或负标签,并对锚段进行初步的边界回归;
应用非极大值抑制方法(NMS)挑选出可能包含行为片段的候选区域。
通过该子网络,我们将生成可能包含行为实例的,不同时间长度的候选区域。为了实现这一目标,我们在网络中引入了锚机制。这些锚具有依据级别不同而预先定义的不同尺度和比例,并以每个相对应的特征图中每个像素为中心,均匀分布在原视频时间维度上,以覆盖不同时间长度的行为片段。每个特征图的每个时间像素位置都指定了不同但固定比例的K个锚点。因此,锚段的总数为
Figure 878832DEST_PATH_IMAGE026
。具体来说,在我们的网络中,我们将K设置为4,特征图{P1,P2,P3}对应的锚段的尺度分别为{8,12,16,20},{12,14,16,18},{10,12,14,16}。注意到特征图{P1,P2,P3}相对于原视频在时间维度的缩放比为{2,4,8},因此原视频帧中锚段的时间尺度为{16,24,32,40,48,56,64,72,80,96,112,128,},可以涵盖大多数行为片段。
特征图{P1,P2,P3}中每个时间位置的512维特征向量用于预测该位置对应锚段相对于提案区域中心位置和长度的相对偏移
Figure 346853DEST_PATH_IMAGE027
。同时,它预测每个提案是包含有行为或属于背景。这些结果通过在特征图{P1,P2,P3}上分别加上两层卷积核为1×1×1的三维卷积层来得到。调整锚段的边界后,使用非极大值抑制法(NMS)来筛选出候选区域,在训练中,我们选出3000个候选区域进行训练,300个候选区域用于测试。
作为一种实施方式,分类子网络根据所述候选区域提案子网络挑选出的可能包含行为片段的候选区域,为其分配类别标签,并进一步精修候选区域的时间边界,包括:
将时间长度不同的可能包含行为片段的候选区域分配到相应的金字塔级别;
三维感兴趣区域(3D RoI)池化层从相应的特征图中提取每个可能包含行为片段的候选区域的特征,得到子特征向量;
在每个子特征向量内执行最大池化;
将最大池化后输出特征向量经过一系列全连接层得到行为分类得分和精修后的行为片段起始时间。
虽然输入候选区域具有不同的时间长度,但经3D RoI池化后每个候选区域的输出特征是固定大小的特征向量。具体地,如果某个输入候选区域的时间长度是
Figure 365625DEST_PATH_IMAGE028
并且将其分配给特征图Рk,该候选区域映射到特征图Рk上的特征向量
Figure 479949DEST_PATH_IMAGE029
尺度为
Figure 773527DEST_PATH_IMAGE030
。那么3D RoI池化层会将
Figure 361635DEST_PATH_IMAGE029
分为1×4×4个子特征量,并且在每个子特征向量内执行最大池化,因此具有任意时间长度的每个候选区域的输出特征向量最终将尺度固定为512×1×4×4。最后,3D RoI池化的输出特征向量经过一系列全连接层(一个分类器和一个时间边界回归器)得到行为分类得分和精修后的行为片段起始时间。
作为一种实施方式,将时间长度不同的可能包含行为片段的候选区域分配到相应的金字塔级别符合以下公式:
Figure 82466DEST_PATH_IMAGE031
其中,
Figure 654393DEST_PATH_IMAGE028
是候选区域的时间长度,是
Figure 751662DEST_PATH_IMAGE032
是某个视频的时间长度,举例来说可以设置为768,
Figure 459855DEST_PATH_IMAGE033
是一个常数,用于调整分配给每个级别的候选区域数量,举例来说可以设置为4.5。直观地看,该公式意味着具有较短时间长度的候选区域将被映射到一个较低的级别,而低级别也是分辨率较高的级别。
作为一种实施方式,本方法还包括:
通过同时优化分类损失和回归损失来训练候选区域提案子网络和分类子网络。
由于候选区域提案子网和分类子网具有相似的分类和回归任务,因此两个子网络使用相同的损失函数,因此可以通过同时优化分类损失和回归损失来训练这两个子网络。
作为一种实施方式,通过同时优化分类损失和回归损失来训练候选区域提案子网络和分类子网络包括:
使用交叉熵损失函数描述分类损失,使用平滑L1损失函数描述回归损失,一个子网络的联合损失函数如下:
Figure 554850DEST_PATH_IMAGE034
其中
Figure 473127DEST_PATH_IMAGE035
Figure 13568DEST_PATH_IMAGE036
在候选区域提案子网络中代表锚段数,而在分类子网络中代表候选区域数,需注意的是,分类子网络中候选区域的数量应该与
Figure 435322DEST_PATH_IMAGE037
相等,
Figure 638901DEST_PATH_IMAGE038
是两种损失的权衡因子,举例来说可以设置为1,
Figure 778895DEST_PATH_IMAGE039
代表锚段索引,
Figure 686809DEST_PATH_IMAGE040
是前/背景或某行为的概率预测值,
Figure 104015DEST_PATH_IMAGE041
则代表真实情况,
Figure 868708DEST_PATH_IMAGE042
是网络预测的锚段/候选区域与真实行为片段的偏移值,而
Figure 371365DEST_PATH_IMAGE043
则是锚段与真实行为片段的真实偏移值。
为了减少不同行为片段时间长度不同的影响,我们用相对偏移值来描述偏移,即:
Figure 817390DEST_PATH_IMAGE044
这里
Figure 853217DEST_PATH_IMAGE045
Figure 398599DEST_PATH_IMAGE046
是索引为
Figure 513185DEST_PATH_IMAGE047
的锚段的中心位置和时间长度,
Figure 903846DEST_PATH_IMAGE048
Figure 420278DEST_PATH_IMAGE049
则代表与之对应的真实行为片段的中心位置和时间维长度。整个网络的损失函数是这两个子网络损失函数之和:
Figure 838359DEST_PATH_IMAGE050
使用训练好的FPC3D网络进行时序行为识别任务时,只需将需测试的视频按照768帧一个buffer进行预处理,之后输入网络即可。网络将输出其预测的行为片段开始结束时间及行为类别。
在本发明中,构建了3D特征金字塔分层特征,以使用多尺度的语义信息。具体而言,某个视频的输入帧是尺度不变的,这些帧通过微调的C3D网络进行编码,并输出时间长度为输入视频时长的1/8的基础特征图。此后,基础特征图将通过自上而下的路径,生成三个不同时间尺度的新特征图。这些特征图是高分辨率特征图和高级语义信息的融合,将由以下两个子网共享。一是时序候选区域提案子网络,该子网络主要功能是通过锚点机制生成候选区域。此子网中使用的特征图用于为锚设置正或负标签,并初步调整锚段的边界。第二个子网络是分类子网络,顾名思义,分类子网负责对候选区域中的行为进行分类,并通过共享特征图来精修它们的边界。
我们在THUMOS'14数据集中对其进行了评估。在没有使用光流特征的现有方法中,我们的网络几乎可以达到最佳效果。进一步的消融测试表明,金字塔层次结构可有效改善对短时行为的检测。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多尺度时序行为识别方法,其特征在于,所述方法包括:
建立三维卷积特征金字塔网络模型,所述三维卷积特征金字塔网络模型包括:三维卷积特征金字塔结构、候选区域提案子网络和分类子网络;
对所述三维卷积特征金字塔网络模型进行训练;
所述三维特征金字塔层次结构对输入的视频帧进行编码,并生成多级特征图;
候选区域提案子网络使用所述多级特征图挑选可能包含行为片段的候选区域;
分类子网络根据所述候选区域提案子网络挑选出的可能包含行为片段的候选区域,为其分配类别标签,并进一步精修候选区域的时间边界。
2.根据权利要求1所述的多尺度时序行为识别方法,其特征在于,所述对三维卷积特征金字塔网络模型进行训练包括对候选区域提案子网络进行训练和对分类子网络进行训练;
其中,对候选区域提案子网络进行训练包括:
将锚段标定为正/负样本:若锚段与某些真实行为片段有重叠,且交并比高于0.7,或与某些真实行为片段有最高的交并比,则将该锚段标定为正标签,若锚段与所有的真实行为片段的交并比均低于0.3,则将该锚段标记为负样本;
只采用正样本和负样本对候选区域提案子网络进行训练;
对分类子网络进行训练包括:
为每个候选区域分配行为类别标签:如果某候选区域与某真实行为片段具有最高交并比,同时交并比大于0.5,则给该候选区域标定为对应的行为类别标签,若某候选区域与所有真实的行为片段交并比都低于0.5,则将被标定为负标签;
采用分配行为类别标签后的候选区域对分类子网络进行训练。
3.根据权利要求2所述的多尺度时序行为识别方法,其特征在于,对候选区域提案子网络进行训练时,所述正样本和所述负样本的数量比为1:1。
4.根据权利要求1所述的多尺度时序行为识别方法,其特征在于,所述三维特征金字塔层次结构对输入的视频帧进行编码,并生成多级特征图包括:
对输入的视频帧提取时空特征;
使用conv1a到conv5b形成了自下而上的途径;
设定在时间尺度上相同的特征图为同一个金字塔级别的特征图;
通过自上而下的通道和横向连接通道构建特征金字塔结构,生成多级特征图。
5.根据权利要求4所述的多尺度时序行为识别方法,其特征在于,所述自上而下的通道由多层上采样层组成,所述横向连接层是卷积核大小为1 x 1 x 1 的三维卷积层。
6.根据权利要求1所述的多尺度时序行为识别方法,其特征在于,所述候选区域提案子网络使用所述多级特征图挑选可能包含行为片段的候选区域包括:
从三维特征金字塔层次结构生成的每个特征图中生成相应锚段;
为每个锚段分配正或负标签,并对锚段进行初步的边界回归;
应用非极大值抑制法挑选出可能包含行为片段的候选区域。
7.根据权利要求1所述的多尺度时序行为识别方法,其特征在于,所述分类子网络根据所述候选区域提案子网络挑选出的可能包含行为片段的候选区域,为其分配类别标签,并进一步精修候选区域的时间边界,包括:
将时间长度不同的可能包含行为片段的候选区域分配到相应的金字塔级别;
三维感兴趣区域池化层从相应的特征图中提取每个可能包含行为片段的候选区域的特征,得到子特征向量;
在每个子特征向量内执行最大池化;
将最大池化后输出特征向量经过一系列全连接层得到行为分类得分和精修后的行为片段起始时间。
8.根据权利要求7所述的多尺度时序行为识别方法,其特征在于,所述将时间长度不同的可能包含行为片段的候选区域分配到相应的金字塔级别符合以下公式:
Figure 521724DEST_PATH_IMAGE001
其中,
Figure 309551DEST_PATH_IMAGE002
是候选区域的时间长度,
Figure 555856DEST_PATH_IMAGE003
是某个视频的时间长度,
Figure 567674DEST_PATH_IMAGE004
是一个常数,
Figure 30754DEST_PATH_IMAGE005
是一金字塔级别,用于调整分配给每个级别的候选区域数量。
9.根据权利要求1所述的多尺度时序行为识别方法,其特征在于,还包括:
通过同时优化分类损失和回归损失来训练候选区域提案子网络和分类子网络。
10.根据权利要求9所述的多尺度时序行为识别方法,其特征在于,所述通过同时优化分类损失和回归损失来训练候选区域提案子网络和分类子网络包括:
使用交叉熵损失函数描述分类损失,使用平滑L1损失函数描述回归损失,一个子网络的联合损失函数如下:
Figure 419010DEST_PATH_IMAGE006
其中
Figure 519821DEST_PATH_IMAGE007
Figure 702541DEST_PATH_IMAGE008
在候选区域提案子网络中代表锚段数,而在分类子网络中代表候选区域数,
Figure 154382DEST_PATH_IMAGE009
是两种损失的权衡因子,
Figure 80750DEST_PATH_IMAGE010
代表锚段/候选区域索引,
Figure 36067DEST_PATH_IMAGE011
是前/背景或某行为的概率预测值,
Figure 858530DEST_PATH_IMAGE012
则代表真实情况,
Figure 656722DEST_PATH_IMAGE013
是网络预测的锚段/候选区域与真实行为片段的偏移值,而
Figure 760682DEST_PATH_IMAGE014
则是锚段/候选区域与真实行为片段的真实偏移值。
CN202010293090.3A 2020-04-15 2020-04-15 一种多尺度时序行为识别方法 Active CN111178344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010293090.3A CN111178344B (zh) 2020-04-15 2020-04-15 一种多尺度时序行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010293090.3A CN111178344B (zh) 2020-04-15 2020-04-15 一种多尺度时序行为识别方法

Publications (2)

Publication Number Publication Date
CN111178344A true CN111178344A (zh) 2020-05-19
CN111178344B CN111178344B (zh) 2020-07-17

Family

ID=70655210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010293090.3A Active CN111178344B (zh) 2020-04-15 2020-04-15 一种多尺度时序行为识别方法

Country Status (1)

Country Link
CN (1) CN111178344B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434629A (zh) * 2020-07-21 2021-03-02 新加坡依图有限责任公司(私有) 一种在线时序动作检测方法及设备
CN112487967A (zh) * 2020-11-30 2021-03-12 电子科技大学 一种基于三维卷积网络的景区涂画行为识别方法
CN113486784A (zh) * 2021-07-02 2021-10-08 北京航空航天大学 一种双阶段的时序动作检测方法、装置、设备和介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法
CN106407903A (zh) * 2016-08-31 2017-02-15 四川瞳知科技有限公司 基于多尺度卷积神经网络的实时人体异常行为识别方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN107862275A (zh) * 2017-11-01 2018-03-30 电子科技大学 人体行为识别模型及其构建方法和人体行为识别方法
CN109697434A (zh) * 2019-01-07 2019-04-30 腾讯科技(深圳)有限公司 一种行为识别方法、装置和存储介质
CN109829398A (zh) * 2019-01-16 2019-05-31 北京航空航天大学 一种基于三维卷积网络的视频中的目标检测方法
US20190220734A1 (en) * 2016-10-11 2019-07-18 The Research Foundation For The State University Of New York System, Method, and Accelerator to Process Convolutional Neural Network Layers
CN110263728A (zh) * 2019-06-24 2019-09-20 南京邮电大学 基于改进的伪三维残差神经网络的异常行为检测方法
CN110705339A (zh) * 2019-04-15 2020-01-17 中国石油大学(华东) 一种基于c-c3d的手语识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法
CN106407903A (zh) * 2016-08-31 2017-02-15 四川瞳知科技有限公司 基于多尺度卷积神经网络的实时人体异常行为识别方法
US20190220734A1 (en) * 2016-10-11 2019-07-18 The Research Foundation For The State University Of New York System, Method, and Accelerator to Process Convolutional Neural Network Layers
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN107862275A (zh) * 2017-11-01 2018-03-30 电子科技大学 人体行为识别模型及其构建方法和人体行为识别方法
CN109697434A (zh) * 2019-01-07 2019-04-30 腾讯科技(深圳)有限公司 一种行为识别方法、装置和存储介质
CN109829398A (zh) * 2019-01-16 2019-05-31 北京航空航天大学 一种基于三维卷积网络的视频中的目标检测方法
CN110705339A (zh) * 2019-04-15 2020-01-17 中国石油大学(华东) 一种基于c-c3d的手语识别方法
CN110263728A (zh) * 2019-06-24 2019-09-20 南京邮电大学 基于改进的伪三维残差神经网络的异常行为检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIYANG GAO 等: "TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 *
张杰豪: "基于深度学习的行为检测", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434629A (zh) * 2020-07-21 2021-03-02 新加坡依图有限责任公司(私有) 一种在线时序动作检测方法及设备
CN112487967A (zh) * 2020-11-30 2021-03-12 电子科技大学 一种基于三维卷积网络的景区涂画行为识别方法
CN113486784A (zh) * 2021-07-02 2021-10-08 北京航空航天大学 一种双阶段的时序动作检测方法、装置、设备和介质
CN113486784B (zh) * 2021-07-02 2024-02-13 北京航空航天大学 一种双阶段的时序动作检测方法、装置、设备和介质

Also Published As

Publication number Publication date
CN111178344B (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
Tu et al. Action-stage emphasized spatiotemporal VLAD for video action recognition
Gao et al. Cnn-based density estimation and crowd counting: A survey
CN111178344B (zh) 一种多尺度时序行为识别方法
CN109446923B (zh) 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN109543695B (zh) 基于多尺度深度学习的泛密度人群计数方法
CN113688723B (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN109299717B (zh) 文字识别模型建立及文字识别方法、装置、介质及设备
Guo et al. Scene classification of remote sensing images based on saliency dual attention residual network
CN111488932B (zh) 一种基于帧率感知的自监督视频时-空表征学习方法
KR20210137213A (ko) 이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체
CN111104852B (zh) 一种基于启发式高斯云变换的人脸识别技术
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN113591674B (zh) 一种面向实时视频流的边缘环境行为识别系统
Xu et al. BANet: A balanced atrous net improved from SSD for autonomous driving in smart transportation
CN115240024A (zh) 一种联合自监督学习和半监督学习的地外图片分割方法和系统
Lu et al. A segmentation-based multitask learning approach for isolating switch state recognition in high-speed railway traction substation
CN109002808B (zh) 一种人体行为识别方法及系统
Cao et al. A new region proposal network for far-infrared pedestrian detection
Chen et al. SnipeDet: Attention-guided pyramidal prediction kernels for generic object detection
CN116704433A (zh) 基于上下文感知关系预测编码的自监督群体行为识别方法
Muzamal et al. Crowd Counting with respect to Age and Gender by using Faster R-CNN based Detection
Zhang et al. A deep learning method for video‐based action recognition
CN116721458A (zh) 一种基于跨模态时序对比学习的自监督动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant