CN110222592B - 一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法 - Google Patents

一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法 Download PDF

Info

Publication number
CN110222592B
CN110222592B CN201910410528.9A CN201910410528A CN110222592B CN 110222592 B CN110222592 B CN 110222592B CN 201910410528 A CN201910410528 A CN 201910410528A CN 110222592 B CN110222592 B CN 110222592B
Authority
CN
China
Prior art keywords
behavior
proposal
time sequence
time
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910410528.9A
Other languages
English (en)
Other versions
CN110222592A (zh
Inventor
李红昌
王晶
韩建军
张金民
杨玉山
韩园园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Special Equipment Inspection and Testing Institute
Original Assignee
Xian Special Equipment Inspection and Testing Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Special Equipment Inspection and Testing Institute filed Critical Xian Special Equipment Inspection and Testing Institute
Priority to CN201910410528.9A priority Critical patent/CN110222592B/zh
Publication of CN110222592A publication Critical patent/CN110222592A/zh
Application granted granted Critical
Publication of CN110222592B publication Critical patent/CN110222592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法,得到的深度神经网络模型对给定的一段未分割的长视频,检测视频中的行为片段,包括其开始时间、结束时间以及行为类别。该方法包括以下步骤:1)对一段可能包含一个或多个行为片段的未分割的长视频进行数据预处理,提取特征。2)利用互补时序行为提案生成器模型,进行行为提案互补过滤生成。3)基于互补时序行为提案生成器模型和三维兴趣区域池化的时序行为分类神经网络。4)模型训练,利用反向传播算法训练神经网络参数。本发明能够实现高质量的时序提案生成和准确的行为分类。

Description

一种基于互补时序行为提案生成的时序行为检测网络模型的 构建方法
技术领域
本发明涉及一种针对时序行为检测的深度神经网络模型的构建方法。
背景技术
时序行为检测是一个计算机视觉研究领域的热门方向,旨在使计算机更好的理解视频内容,极具应用前景。时序行为检测的目标是给定一段未分割的长视频,算法需要检测视频中的行为片段(Action Instance),包括其开始时间、结束时间以及行为类别,其中一段视频可能包含一个或多个行为片段。
随着近年来深度学习的迅速发展,使用深度神经网络,如深度卷积神经网络(Convolutional Neural Networks,CNN)和深度循环神经网络(Recurrent NeuralNetworks,RNN)构建网络模型成为目前计算机视觉领域的主流研究方向。在时序行为检测算法中,如何更好的引入深度神经网络,构建更具高效性和精准度的网络模型是一个值得深入探索的研究问题。
在实际应用方面,时序行为检测具有非常广泛的运用前景。如在入侵检测领域,传统的检测方法普遍使用各类传感器(如红外传感器)方案,这种方案的特点是检测率高,但是成本高,误报率高,无法立刻判断报警是否为误报,需要立刻派遣人员前往实地查看。对于大范围的入侵监控,人力成本相当高。所以这种传感器入侵检测方案一般都需要外加摄像机,用于远程现场查看,这样就提高了方案的总体成本。而基于时序行为检测的智能视频分析方案则有着综合成本低、人员需求少、检测率高、误报率低等优点,已经比较成熟地普遍应用在机场周边、监狱、党政机关等场所。
由于自然场景下的视频内容复杂,行为类别多样,视频长短不一,且一个视频可能包含一个或多个行为片段,这使得时序行为检测任务面临巨大的挑战。具体而言,主要存在如下三个方面的难点:
(1)时序行为的边界很多时候并不是很明确,什么时候算是一个行为的开始,什么时候又算是行为的结束常常无法给出一个准确的边界(指精确的第几帧)。
(2)在时序行为检测中,相邻视频帧之间存在着紧密的联系,因此无法只使用静态图像信息,必须结合时序的信息。因此,如何更加精确的提取视频帧的时空特征(Spatial-temporal Features)是一个值得深入研究的方向。
(3)时序行为片段的时间跨度变化可能非常大,比如在数据集ActivityNet中,最短的行为片段大概1秒左右,最长的行为片段则超过了200秒。巨大的时间跨度,也使得检测时序行为非常难。
基于以上提及的三个任务难点,要设计出一个好的时序行为检测方法,关键在于解决以下两点:
(1)高质量的时序片段(行为的时序边界):即在保证平均召回率(AverageRecall,AR)的情况下,尽可能减少时序行为提案(Temporal Action Proposal,TAP)的数量。
(2)准确的分类(行为的类别):即能准确的得到时序行为片段的类别信息。
在时序行为检测任务中,时序行为提案生成是一项重要的任务,以前的方法可以分为两种:滑动窗口排名和动作得分分组。其中,滑动窗口均匀覆盖视频中的所有片段,但时序边界不精确;基于动作得分分组的方法可能有更精确的边界,但当动作质量分数较低时,可能会遗漏一些提案。
发明内容
本发明提出一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法,能够实现高质量的时序提案生成和准确的行为分类。
本发明的解决方案如下:
基于互补时序行为提案生成的时序行为检测网络模型的构建方法,包括以下步骤:
1)数据预处理
首先将视频数据按设定的单位长度剪切成图像帧,然后从图像帧中提取带有时序和空间信息的单元级特征;例如,原视频以25帧每秒的长度被剪切成图像帧,然后将这些图像帧组合成视频单元或片段(units or snippets),每个单元都包含nu个连续图像帧(在我们的网络中,nu=16),然后将这些视频单元(units)输入到C3D网络中提取得到一系列的单元级特征(unit-level feature),这些单元级特征则将会作为后续网络的基本处理单元;
2)建立互补时序行为提案生成器的模型
2.1)将步骤1)得到的单元级特征分别输入到时序行为小组网络和滑动窗口采样网络中;
所述时序行为小组网络,首先对每一个单元级特征生成对应的动作得分,然后对该视频数据的所有单元级特征进行过滤组合并生成候选提案;
所述滑动窗口采样网络,首先使用不同大小的滑动窗口,均匀覆盖所有的单元级特征,生成对应的候选提案;再评估这些候选提案是否会被所述时序行为小组网络遗漏,收集可能被遗漏的候选提案;
2.2)对分别来自时序行为小组网络和滑动窗口采样网络的候选提案进行联合互补过滤,即:将时序行为小组网络生成的候选提案和滑动窗口采样网络收集的候选提案一起组合成联合提案(候选提案合集);
2.3)将联合互补过滤后的候选提案输入到时序卷积调整和排序网络中进行提案排序和时序边界调整,最终得到融合了滑动窗口排名和动作得分分组的互补特点的时序行为提案;
3)建立基于三维兴趣区域池化的时序行为分类神经网络
将步骤2)获取的提案输入到三维兴趣区域池化层来提取固定尺寸的特征,再根据池化的特征为选定的提案进行行为分类和边界调整(即,将这些相同尺寸的特征分别独立输入到均由全连接层组成的分类子网和边界调整子网中,相应分别得到行为类别预测值和行为起止时间边界预测值);输出时序行为检测结果;
4)模型训练
使用“视频-行为类别-开始时间-结束时间”四元组构成的训练集,首先对步骤2)产生的预测行为提案与实际视频中真实的行为片段之间的差异,利用反向传播算法对互补时序行为提案生成器的模型参数进行训练,直至互补时序行为提案生成器模型收敛;再对步骤3)产生的行为类别预测值和行为起止时间边界预测值同该行为在实际视频中的差异,并利用反向传播算法对基于三维兴趣区域池化的时序行为分类神经网络的模型参数进行训练,直至整个网络模型收敛。
本发明具有以下有益效果:
本发明中的互补时序行为提案生成器模型,利用滑动窗口排名和动作得分分组的互补特点,实现高质量的时序提案生成;
本发明中运用三维兴趣区域池化来固定提案特征大小的分类回归网络,提升了分类的准确率。
附图说明
图1为本发明中互补时序行为提案生成器的运行流程示意图。
图2为本发明构建的时序行为检测深度神经网络的运行流程示意图。
具体实施方式
给定视频v,相应的行为类别c和对应该行为的开始时间s和结束时间e,构成四元组v,c,s,e作为训练集。
步骤(1)、数据预处理,将视频剪切成图像帧,对视频图像帧提取特征
对视频v预处理:将视频以秒为单位剪切成一定数量的图像帧vp。对视频图像帧的预处理:将图像帧vp输入到现有的深度神经网络提取图像的特征vf
步骤(2)、互补时序行为提案生成器模型
将步骤(1)得到的视频图像帧的单元级特征vf分别输入到时序行为小组网络和滑动窗口采样网络中,其中时序行为小组网络首先会对每一个单元级特征生成对应的动作得分,然后再借鉴分水岭算法,对这些单元级特征进行过滤组合并生成候选提案。对于滑动窗口采样网络,首先使用不同大小的滑动窗口,均匀覆盖所有的单元级特征,生成对应的候选提案,再将这些候选提案输入到一个提案级动作可信度评估器网络中,该网络会对来自滑动窗口的所有候选提案进行评判,判断该提案是否会被时序行为小组遗漏。最终,对分别来自时序行为小组和滑动窗口的候选提案进行联合过滤,再将联合过滤后的候选提案输入到时序卷积调整和排序网络中进行提案排序和时序边界调整,最终得到融合了滑动窗口排名和动作得分分组的互补特点的时序行为提案。其流程图如图1所示。
步骤(3)、基于三维兴趣区域池化的时序行为分类神经网络模型
这一阶段主要有两个功能:1)对上一个阶段获取的提案片段使用三维兴趣区域池化层来提取固定尺寸的特征,2)根据池化的特征为选定的提案进行行为分类和边界调整。选定的提案可以是任意长度的,但是为了使用全连接(Fully Connected,FC)层对提案进行进一步的行为分类和边界回归,我们需要为它们提取固定大小的特征。三维兴趣区域池化层可以通过共享来自步骤(1)的卷积层
Figure BDA0002062672790000051
提取的特征为任意长度的提案提取固定尺寸大小的特征。具体而言,设一个输入到三维兴趣池化层的提案的体积为l×h×w,将其划分为ls×hs×ws个子提案,则每个子提案的体积大小近似为
Figure BDA0002062672790000052
然后对每一个子提案执行最大池化操作,最终,任意长度的提案都产生相同尺寸的特征输出。再将这些相同尺寸的特征分别独立输入到均由全连接层组成的分类子网和边界调整子网中,其中,分类子网经过一个softmax产生概率输出作为提案行为类别c的分类预测值,边界调整子网则输出更加精确的行为开始时间s和结束时间e。结合该提案的具体类别c和其时序边界,得到最终的时序行为检测结果。
步骤(4)、模型训练
首先对互补时序行为提案生成器模型根据其产生的预测行为提案(ActionProposal)与实际视频中真实的行为片段之间的差异,利用反向传播算法对互补时序行为提案生成器模型的模型参数进行训练,直至该模型收敛。再对分类回归子网根据其产生的行为类别预测值及行为起止时间边界预测值同该行为在实际视频中的差异,并利用反向传播算法对上述定义的神经网络的模型参数进行训练,直至整个网络模型收敛。
各步骤具体说明如下:
步骤(1)所述的数据预处理及对视频图像帧的特征提取:
1-1.对视频v首先将其剪切成图像帧vp,其中
Figure BDA0002062672790000061
c是图像帧的通道数,h和w分别是图像帧的高和宽。再将多张连续的图像帧先统一裁剪后再组合成视频段clip,其具体公式如下:
clip=[frame_length,crop_size1,crop_size2,channel_num] (公式1)
其中frame_length代表组合的连续图像帧的数量,crop_size1、crop_size2分别代表统一裁剪后图像帧的高和宽,channel_hum代表图像帧的通道数。
1-2.对组合后的视频段提取特征,将其输入到现有的深度神经网络中提取特征得到特征vf,此时得到的特征既包含了原视频段的空间特征也包含了其时序特征。
本实施例中,使用THUMOS2014数据集作为训练和测试数据。
对原视频,这里以每秒30帧(30fps)将其剪切成图像帧,然后将剪切后的图像再统一裁剪成长宽均为112像素的RGB图像,再以跨度为8帧,总长度为16帧为一组组合成视频段clip,即每一个视频段的长度为16帧,但相邻两个视频段之间的重叠率为0.5,最终,每一个视频段的大小为clip=[16,112,112,3]。
对于得到的视频段,将其以每128段为一批次输入到现有的三维卷积网络中提取特征。具体的,我们将FC7层的输出作为视频段特征
Figure BDA0002062672790000071
步骤(2)所述的互补时序行为提案生成器模型提取时序行为提案,具体如下:
2-1.基于提取的单元级特征,我们训练一个二分类器来为每个单元生成行为得分。具体来说,我们设计一个两层的时序卷积神经网络,以ta个连续单元特征作为输入,
Figure BDA0002062672790000072
然后输出每个单元的概率
Figure BDA0002062672790000073
来表示它是背景还是动作,具体公式如下:
Figure BDA0002062672790000074
其中
Figure BDA0002062672790000075
表示时序卷积算子,W为其卷积核的权值。在这个网络中,
Figure BDA0002062672790000076
(k为核大小)为训练参数。
Figure BDA0002062672790000077
是一个非线性激活函数,σ(.)是一个sigmoid函数。
本实施例中,使用的时序卷积的卷积和大小均为3(k=3),卷积步幅均为1,使用的非线性激活函数
Figure BDA0002062672790000078
为线性整流函数。
2-2.对于每个单元及特征得到的动作得分,我们仿照分水岭算法,以τ为阈值,若该单元级特征的动作得分大于该阈值,则将其生成为原始提案,对于几个连续的原始提案,如果它们的时间长度占整个视频时间长度的定量比大于阈值η,则将它们组合成候选提案。我们遍历所有可能的τ和η的组合来产生候选提案,并使用非最大抑制算法来消除那些冗余的提案。将这一步生成的行为提案标记为{bj}。
本实施例中,原始提案生成过程使用的阈值τ的初始值设定为0.085,而候选提案的生成过程中,为了列举所有可能的阈值τ与阈值η的组合(τ,η),我们首先将阈值τ以0.085的步幅在范围[0.085,1)中进行迭代。在每一次的迭代过程中,我们进一步地对阈值η以0.025为步幅在范围[0.025,1]中进行迭代。为了消除那些冗余的提案,我们引入非最大抑制算法,其使用的阈值设定为0.95。
2-3.使用滑动窗口采样策略生成候选提案,相较于基于动作得分分布所生成的行为提案,滑动窗口能够均匀地覆盖视频的所有片段。我们的目标是,在最大程度匹配视频的真实标签段的同时,也即在保证尽可能高的回召率的同时,尽可能地减少滑动窗口的数量。所有的滑动窗口标记为{ak}。
本实施例中,采用{16,32,64,128,256,512}的提案长度设置,其中tIoU为0.75。
2-4.训练一个提案级动作可信度评估器,具体地说,它是一个二分类器,其输入是一系列单元特征,输出则是该提案能否正确地被2-1检测到的概率si,其公式如下:
Figure BDA0002062672790000081
其中
Figure BDA0002062672790000082
均为训练参数。其它符号与2-1所述相同。
2-5.对来自滑动窗口{ak}的每一个提案使用提案级动作可信度评估器对其进行评估,对于任意一个输入的提案,提案级动作可信度评估器输出的得分pt将会指示这个提案有多大的概率不会被时序行为小组遗漏。我们设定一个阈值θa,如果任意窗口ak的提案级动作可信度评估器得分pt(ak)小于该阈值,则代表时序行为小组可能会遗漏掉这个片段(提案),那么这个片段将会被收集。接着,我们对来自滑动窗口收集的提案和所有来自时序行为小组的提案进行联合互补过滤,并将最终得到的提案标记为{cm}。
本实施例中,将该提案级动作可信度评估器的第一个全连接层的输出维度设置为1024(dm=1024),其阈值θa设置为0.1。
2-6.使用时序卷积调整和排序网络来排序互补过滤后的提案并调整其时序边界。具体地说,假设输入提案cm的时序边界的开始和结束单元记为us,ue,我们在提案内部统一采样nctl个单元级的特征,记为
Figure BDA0002062672790000083
同时我们在提案的开始和结束边界采样nctx个特征单元,其长度分别为[us-nctx2,us+nctx2和ue-nctx2,ue+nctx2,称之为边界单元,并标记为
Figure BDA0002062672790000084
将这三段特征序列分别输入到三个独立的子网中,提案排序子网将会输出这个提案属于某类行为的概率,边界调整子网则输出时序边界的回归偏移。具体公式如下:
os=tconv(xs),pc=σ(tconv(xc)),oe=tconv(xe) (公式4)
其中os,oe,pc分别代表每一个提案开始边界的预测偏移,结束边界的预测偏移以及其行为类别的概率值,其它符号与2-1所述相同。
本实施例中,在每一个提案的内部统一采样8个单元的特征(nctl=8),并且上下文的长度设置为4个单元特征(nctx=4),我们使用Adam算法对时序卷积调整和排序网络进行优化学习。
步骤(3)所述的构建深度神经网络,具体如下:
3-1.为了提取固定尺寸大小的特征矩阵,将步骤(2)输出的时序行为提案cm输入到三维兴趣区域池化层(其共享的特征图来自于步骤(1)的三维卷积网络中的Cconv5b层)中,具体地说,设一个输入到三维兴趣区域池化层的提案的体积为l×h×w,将其划分为ls×hs×ws个子提案,则每个子提案的体积大小近似为
Figure BDA0002062672790000091
然后对每一个子提案执行最大池化操作,最终,任意长度的提案都产生相同尺寸的特征输出。
本实施例中,其特征图大小为512×2×7×7,使用的最大池化操作的核大小为1×4×4,最终得到的统一大小的特征图维度为512×1×4×4。
3-2.将3-1输出的固定尺寸的特征先输入到两个全连接层中进行降维处理,再将降维后的特征分别独立输入到均由全连接层组成的分类子网和边界调整子网中,其中,分类子网经过一个softmax产生概率输出作为提案行为类别c的分类预测值,边界调整子网则输出更加精确的行为开始时间s和结束时间e。我们对分类子网和边界调整子网进行联合训练,其中,分类子网的损失函数使用softmax损失函数,边界调整子网的损失函数则使用smooth L1损失函数,最终步骤(3)的整体损失函数为分类子网的损失函数和边界调整子网的损失函数之和。
本实施例中,在行为分类子网部分,如果一个被预测的提案与原视频段的真实标签段的IoU大于0.7,则被视为预测正确,反之则认为预测错误。
最终,结合该提案的具体类别和其时序边界,得到最终的时序行为检测结果。至此,构建分类深度神经网络部分完成。
步骤(4)所述的训练模型,通过定义的损失函数Lact和Lpate及Lreg分别对时序行为小组和提案级动作可信度评估器及时序卷积调整和排序模块进行优化训练,根据对应的损失值利用反向传播算法调整整个网络的参数值,直到网络收敛。接着对分类回归子网,根据其定义的总损失函数Loss对网络进行优化训练,根据对应的损失值利用反向传播算法调整整个网络的参数值,直到网络收敛。具体如下:
首先训练互补时序行为提案生成器模型,其中,在得到每个连续单元特征x是属于背景还是行为的概率px后,时序动作小组的损失函数可以被定义为该批次内每一个输入样本的交叉熵损失,具体公式如下:
Figure BDA0002062672790000101
其中
Figure BDA0002062672790000102
是一个二值序列用于指示每一个输入单元xi是否包含行为,若有,则对应的yi值为1,反之则为0。N是批大小。
紧接着,在通过提案级动作可信度评估器模块得到每一个提案能否正确被时序行为小组检测到的概率si后,训练提案级动作可信度评估器模块的损失函数可以被定义为每一个批次内所有训练样本的标准交叉熵损失,具体公式如下:
Figure BDA0002062672790000103
然后,对于时序卷积调整和排序网络模块,其提案排序子网的损失函数使用标准softmax交叉熵损失函数,边界调整子网的损失函数使用L1距离损失函数。具体的说,回归损失的公式可以被定义为如下:
Figure BDA0002062672790000104
其中os,i是预测的起始偏移,oe,i是预测的结束偏移,
Figure BDA0002062672790000105
是真实的起始偏移,
Figure BDA0002062672790000111
是真实的结束偏移。
Figure BDA0002062672790000112
为一个二值标签,当其为正样本时,其值为1,当其为背景样本时,其值为0。Npos为在一个批次中正样本的个数。
根据各个模块定义的损失公式计算得到对应的损失值loss,利用反向传播算调整互补时序行为提案生成器模型中的参数。
接着训练分类回归子网,我们通过共同优化两个子网的分类和回归任务来训练网络。分类子网的损失使用softmax损失函数,回归子网的损失使用smooth L1损失函数,具体而言,该网络部分的总损失可以定义为:
Figure BDA0002062672790000113
其中Ncls和Nreg代表每个批次内提案段的数量,λ则是损失权衡参数并且始终被设置为1。i是一个批次中提案段的索引,ai是行为的预测概率,
Figure BDA0002062672790000114
是该行为的真实标签,
Figure BDA0002062672790000115
代表对提案预测的相对偏移,
Figure BDA0002062672790000116
则代表真实标签段与提案段间的坐标转换,其坐标转换的具体公式如下:
Figure BDA0002062672790000117
其中ci和li分别代表提案的中心位置和其长度,而
Figure BDA0002062672790000118
Figure BDA0002062672790000119
则分别代表真实行为片段的中心位置和其长度。根据定义的损失公式计算得到损失值loss,利用反向传播算调整分类回归网络中的参数。

Claims (6)

1.一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法,包括以下步骤:
1)数据预处理
首先将视频数据按设定的单位长度剪切成图像帧,然后从图像帧中提取带有时序和空间信息的单元级特征;
2)建立互补时序行为提案生成器的模型
2.1)将步骤1)得到的单元级特征分别输入到时序行为小组网络和滑动窗口采样网络中;
所述时序行为小组网络,首先对每一个单元级特征生成对应的动作得分,然后对该视频数据的所有单元级特征进行过滤组合并生成候选提案;
所述滑动窗口采样网络,首先使用不同大小的滑动窗口,均匀覆盖所有的单元级特征,生成对应的候选提案;再评估这些候选提案是否会被所述时序行为小组网络遗漏,收集可能被遗漏的候选提案;
2.2)对分别来自时序行为小组网络和滑动窗口采样网络的候选提案进行联合互补过滤;
2.3)将联合互补过滤后的候选提案输入到时序卷积调整和排序网络中进行提案排序和时序边界调整,最终得到融合了滑动窗口排名和动作得分分组的互补特点的时序行为提案;
3)建立基于三维兴趣区域池化的时序行为分类神经网络
将步骤2)获取的提案输入到三维兴趣区域池化层来提取固定尺寸的特征,再根据池化的特征为选定的提案进行行为分类和边界调整;输出时序行为检测结果;
4)模型训练
使用“视频-行为类别-开始时间-结束时间”四元组构成的训练集,首先对步骤2)产生的预测行为提案与实际视频中真实的行为片段之间的差异,利用反向传播算法对互补时序行为提案生成器的模型参数进行训练,直至互补时序行为提案生成器模型收敛;再对步骤3)产生的行为类别预测值和行为起止时间边界预测值同该行为在实际视频中的差异,并利用反向传播算法对基于三维兴趣区域池化的时序行为分类神经网络的模型参数进行训练,直至整个网络模型收敛。
2.根据权利要求1所述的基于互补时序行为提案生成的时序行为检测网络模型的构建方法,其特征在于,步骤1)具体实现如下:
首先将视频数据v剪切成图像帧vp,其中
Figure FDA0002062672780000021
c是图像帧的通道数,h和w分别是图像帧的高和宽;再将多张连续的图像帧先统一裁剪后再组合成视频段clip,具体公式如下:
clip=[frame_length,crop_size1,crop_size2,channel_num]
其中frame_length代表组合的连续图像帧的数量,crop_size1、crop_size2分别代表统一裁剪后图像帧的高和宽,channel_num代表图像帧的通道数;
然后对于组合后的视频段clip,利用C3D网络提取带有时序和空间信息的单元级特征。
3.根据权利要求1所述的基于互补时序行为提案生成的时序行为检测网络模型的构建方法,其特征在于,步骤2.1)中,所述时序行为小组网络具体实现如下:
基于提取的单元级特征,设计一个两层的时序卷积神经网络,以ta个连续单元级特征作为输入,
Figure FDA0002062672780000031
x表示以ta个连续单元级特征组合后的特征,df表示提取特征后的特征图的维度;然后输出每个单元的概率
Figure FDA0002062672780000038
来表示它是背景还是动作,具体公式如下:
px=σ(tconv(x)),
Figure FDA0002062672780000033
其中,σ(.)是一个sigmoid函数;
Figure FDA0002062672780000034
是一个非线性激活函数;
Figure FDA0002062672780000035
表示时序卷积算子,W为其卷积核的权值;具体在这个网络中,
Figure FDA0002062672780000036
Figure FDA0002062672780000037
为训练参数,k为核大小;
对于每个单元级特征得到的动作得分,仿照分水岭算法,以τ为阈值,若该单元级特征的动作得分大于该阈值,则将其生成为原始提案,对于几个连续的原始提案,如果它们的时间长度占整个视频时间长度的定量比大于阈值η,则将它们组合成候选提案;遍历所有可能的τ和η的组合来产生候选提案,并使用非最大抑制算法来消除冗余的提案。
4.根据权利要求1所述的基于互补时序行为提案生成的时序行为检测网络模型的构建方法,其特征在于,步骤2.1)中,所述滑动窗口采样网络满足在最大程度匹配视频的真实标签段的同时,也即在保证尽可能高的回召率的同时,尽可能地减少滑动窗口的数量。
5.根据权利要求1所述的基于互补时序行为提案生成的时序行为检测网络模型的构建方法,其特征在于,步骤2.1)中,所述滑动窗口采样网络将所有候选提案输入到一个提案级动作可信度评估器中,来评估某候选提案是否会被时序行为小组遗漏;所述提案级动作可信度评估器是一个二分类器,其输入是一系列单元特征,输出的得分pt则指示该提案能否正确地被时序动作小组检测到的概率si,其公式如下:
Figure FDA0002062672780000041
其中,σ(.)是一个sigmoid函数,
Figure FDA0002062672780000042
是一个非线性激活函数,
Figure FDA0002062672780000043
均为训练参数;
对来自滑动窗口{ak}的每一个提案使用提案级动作可信度评估器对其进行评估;设定一个阈值θa,如果任意窗口ak的提案级动作可信度评估器得分pt(ak)小于该阈值,则代表时序行为小组可能会遗漏掉这个提案,那么这个滑动窗口将会被收集。
6.根据权利要求1所述的基于互补时序行为提案生成的时序行为检测网络模型的构建方法,其特征在于,步骤2.3)中,进行提案排序和时序边界调整,具体实现如下:
假设输入提案cm的时序边界的开始和结束单元记为us,ue,在提案内部统一采样nctl个单元级的特征,记为
Figure FDA0002062672780000044
同时在提案的开始和结束边界采样nctx个特征单元,其长度分别为[us-nctx/2,us+nctx/2]和[ue-nctx/2,ue+nctx/2],称之为边界单元,并标记为
Figure FDA0002062672780000045
Figure FDA0002062672780000046
则按照以下公式得出该提案属于某类行为的概率和时序边界的预测偏移:
os=tconv(xs),pc=σ(tconv(xc)),oe=tconv(xe)
其中os,oe,pc分别代表每一个提案开始边界的预测偏移、结束边界的预测偏移、行为类别的概率值。
CN201910410528.9A 2019-05-16 2019-05-16 一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法 Active CN110222592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910410528.9A CN110222592B (zh) 2019-05-16 2019-05-16 一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910410528.9A CN110222592B (zh) 2019-05-16 2019-05-16 一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法

Publications (2)

Publication Number Publication Date
CN110222592A CN110222592A (zh) 2019-09-10
CN110222592B true CN110222592B (zh) 2023-01-17

Family

ID=67821150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910410528.9A Active CN110222592B (zh) 2019-05-16 2019-05-16 一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法

Country Status (1)

Country Link
CN (1) CN110222592B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898461B (zh) * 2020-07-08 2022-08-30 贵州大学 一种时序行为片段生成方法
SG10202006932TA (en) * 2020-07-21 2021-09-29 Yitu Pte Ltd Online Temporal Action Detection Method and Device
CN112001536B (zh) * 2020-08-12 2023-08-11 武汉青忆辰科技有限公司 基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法
CN112101253A (zh) * 2020-09-18 2020-12-18 广东机场白云信息科技有限公司 一种基于视频动作识别的民用机场地面保障状态识别方法
CN113033500B (zh) * 2021-05-06 2021-12-03 成都考拉悠然科技有限公司 动作片段检测方法、模型训练方法及装置
CN113569758B (zh) * 2021-07-29 2024-04-02 西安交通大学 基于动作三元组引导的时序动作定位方法、系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017139927A1 (en) * 2016-02-17 2017-08-24 Intel Corporation Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model
CN107679250A (zh) * 2017-11-01 2018-02-09 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017139927A1 (en) * 2016-02-17 2017-08-24 Intel Corporation Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model
CN107679250A (zh) * 2017-11-01 2018-02-09 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法

Also Published As

Publication number Publication date
CN110222592A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN110222592B (zh) 一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法
CN108921051B (zh) 基于循环神经网络注意力模型的行人属性识别网络及技术
CN110175580B (zh) 一种基于时序因果卷积网络的视频行为识别方法
CN110084151B (zh) 基于非局部网络深度学习的视频异常行为判别方法
CN113516012B (zh) 一种基于多层级特征融合的行人重识别方法及系统
CN111079655B (zh) 一种基于融合神经网络的视频中人体行为识别方法
CN111339818B (zh) 一种人脸多属性识别系统
CN112087442B (zh) 基于注意力机制的时序相关网络入侵检测方法
CN112131929B (zh) 一种基于区块链的跨摄像机行人跟踪系统及方法
KR102593835B1 (ko) 휴리스틱 가우스 클라우드 변환에 기반하는 얼굴인식 기술
CN111402298A (zh) 基于目标检测与轨迹分析的粮库视频数据压缩方法
CN113297972B (zh) 一种基于数据融合深度学习的变电站设备缺陷智能分析方法
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN108319672A (zh) 基于云计算的移动终端不良信息过滤方法及系统
CN112200096B (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN112329536A (zh) 一种基于交替对抗迁移学习的单样本人脸识别方法
CN109447014A (zh) 一种基于双通道卷积神经网络的视频在线行为检测方法
CN114842553A (zh) 基于残差收缩结构和非局部注意力的行为检测方法
CN110599458A (zh) 基于卷积神经网络的地下管网检测评估云系统
CN115348074A (zh) 深度时空混合的云数据中心网络流量实时检测方法
CN116844041A (zh) 一种基于双向卷积时间自注意力机制的耕地提取方法
CN111832479B (zh) 基于改进的自适应锚点r-cnn的视频目标检测方法
CN117252459A (zh) 一种基于深度学习的水果质量评估系统
CN115761888A (zh) 基于nl-c3d模型的塔吊操作人员异常行为检测方法
CN111681748B (zh) 基于智能视觉感知的医疗行为动作规范性评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Jing

Inventor after: Li Hongchang

Inventor after: Han Jianjun

Inventor after: Zhang Jinmin

Inventor after: Yang Yushan

Inventor after: Han Yuanyuan

Inventor before: Li Hongchang

Inventor before: Wang Jing

Inventor before: Han Jianjun

Inventor before: Zhang Jinmin

Inventor before: Yang Yushan

Inventor before: Han Yuanyuan