CN109271876B - 基于时间演化建模和多示例学习的视频动作检测方法 - Google Patents

基于时间演化建模和多示例学习的视频动作检测方法 Download PDF

Info

Publication number
CN109271876B
CN109271876B CN201810971986.5A CN201810971986A CN109271876B CN 109271876 B CN109271876 B CN 109271876B CN 201810971986 A CN201810971986 A CN 201810971986A CN 109271876 B CN109271876 B CN 109271876B
Authority
CN
China
Prior art keywords
segment
action
training
frames
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810971986.5A
Other languages
English (en)
Other versions
CN109271876A (zh
Inventor
宋砚
唐金辉
李泽超
杨明磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201810971986.5A priority Critical patent/CN109271876B/zh
Publication of CN109271876A publication Critical patent/CN109271876A/zh
Application granted granted Critical
Publication of CN109271876B publication Critical patent/CN109271876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于时间演化建模和多示例学习的动作检测方法,包括特征提取、制作训练样本并统计动作长度分布、对训练样本进行时间演化建模并训练多示例学习神经网络、对测试视频进行检测四个过程;首先,通过滑动窗口的方法来切分训练视频得到训练动作片段;然后将训练动作片段进行时间演化建模作为网络的输入特征;再然后使用多任务损失函数来训练网络;最后使用训练好的网络对测试视频上的动作片段提议进行分类和边界估计,得到测试视频上的动作检测结果。

Description

基于时间演化建模和多示例学习的视频动作检测方法
技术领域
本发明涉及一种计算机视觉领域中视频人体动作检测技术,特别是一种基于时间演化建模和多示例学习的视频动作检测方法。
背景技术
视频中的人体动作检测是一项重要且具有挑战性的任务,由于其在视频分析、智能视频监控、智能家居、人机交互、虚拟现实等领域的广泛应用,人体动作检测受到了越来越多的关注。给定一个未剪辑的长视频,人体动作检测任务不仅要输出动作类别,而且要给出精确的动作开始时间以及动作结束时间。
目前主流的动作检测方法主要包含两个步骤。第一步在原始视频上提取动作片段提议,第二步对动作片段提议进行分类来得到检测的结果。但是这些基于动作片段提议的方法往往会得到不精确的动作边界,因为动作提议片段的长度通常是预先定义好的。此外,现有的方法对动作片段提议的分类效果还是不尽如人意的。
发明内容
本发明的目的在于提供一种基于时间演化建模和多示例学习的视频动作检测方法,该方法动作检测的边界准确,动作片段提议分类准确率高。
实现本发明目的的技术方案为:一种基于时间演化建模和多示例学习的视频动作检测方法,包括特征提取、制作训练样本并统计动作长度分布、对训练样本进行时间演化建模并训练多示例学习神经网络、对测试视频进行检测四个过程;其中
(1)特征提取过程包括以下步骤:
步骤101,把训练视频以及测试视频中每一个16帧的视频片段输入到C3D网络中,提取网络的fc6层的输出作为特征;
步骤102,将步骤101中得到特征使用主成分分析进行降维;
步骤103,将步骤102中降维后的特征使用L2范数对特征进行归一化;
(2)制作训练样本并统计动作长度分布包括以下步骤:
步骤201,使用滑动窗口法在训练视频上按照重叠率剪切动作片段;
步骤202,统计步骤201中得到动作片段的长度分布;
(3)对训练样本进行时间演化建模并训练多示例学习神经网络包括以下步骤:
步骤301,将步骤201得到的每个训练动作片段均分为三段,同时加上片段前后的32帧片段,一共五段,每段取步骤103中每个16帧的特征的均值,拼接为片段特征;
步骤302,用全连接和MILpooling层构建多示例学习神经网络,输入为301得到的片段特征,输出为片段的动作类别以及片段的前后偏移量,损失函数为多任务损失,训练神经网络;
(4)对测试视频进行检测包括以下步骤:
步骤401,用现有的生成动作片段提议方法得到测试视频上的动作片段提议;
步骤402,将步骤401的动作片段提议按照步骤301得到片段特征,输入到步骤302中训练好的多示例学习神经网络中,得到动作类别,以及片段前后的偏移;将片段的前后偏移加到原始片段上,构成新的片段,再按照步骤301得到片段特征,输入到步骤302中训练好的多示例学习神经网络中,如此循环三次,得到最终输出的片段动作类别,动作得分,以及片段的边界;
步骤403,使用步骤202中得到的长度分布对步骤402中的最终的片段动作得分进行调整;
步骤404,使用步骤403中得到的动作片段提议新的动作得分进行非极大值抑制算法计算,去除冗余检测得到动作检测结果。
本发明与现有技术相比,具有以下优点:本发明使用的时间演化建模能有效地利用动作的结构特征和上下文信息,并且本发明使用的多任务损失函数不仅能对动作片段进行分类,而且能对片段的边界进行精确调整,能够大幅度的提高动作检测结果的精度。
下面结合说明书附图对本发明作进一步描述。
附图说明
图1是本发明的训练流程图以及多示例学习网络结构示意图。
图2是本发明使用的时间演化建模示意图。
具体实施方式
本发明提出一种基于时间演化建模和多示例学习的动作检测方法,包括特征提取、制作训练样本并统计动作长度分布、对训练样本进行时间演化建模并训练多示例学习神经网络、对测试视频进行检测四个过程,对未剪辑的长视频进行一系列的计算,得到其中人体动作发生的开始时间、结束时间以及动作的类别。
(1)特征提取过程包括以下步骤:
步骤1,把训练视频以及测试视频输入C3D网络中。C3D网络第一层的输入为视频中的16帧图像,把视频每16帧作为一个切片输入网络中,第(1~15)、(2~16)、……帧作为输入,然后提取网络最后第二个全连接层fc6层的输出作为特征,输出为4096维。于是,若视频的帧数为F,视频的特征为(F-15)×4096维。
步骤2,将步骤1中得到特征使用主成分分析进行降维,从4096维降到500维。
步骤,将步骤2中降维后的特征使用L2范数进行归一化。
(2)制作训练样本并统计动作长度分布包括以下步骤:
步骤4,使用滑动窗口法在训练视频上按照重叠率剪切动作片段,滑动窗口的长度为16帧、32帧、64帧、128帧、256帧、512帧,如果一个滑动窗口与任意一个真实动作片段的交并比(IoU)大于0.5,我们就将该滑动窗口作为对应动作的训练样本,同时记录该滑动窗口与对应动作片段的前后偏移量,如果一个滑动窗口与任意一个真实动作片段都不相交,那么我们就将该滑动窗口作为背景类样本,背景类训练样本从背景类样本中随机选取,数量与每个动作的训练样本的平均数量相同。
步骤5,统计步骤4中得到动作片段的长度分布,即每个动作类中,不同滑动窗口长度的训练样本所占的比率;
对训练样本进行时间演化建模并训练多示例学习神经网络包括以下步骤:
步骤6,如图2所示,将步骤4)得到的每个训练动作片段进行时间演化建模:给定一个视频片段X,我们将其均分为三部分Xs、Xm和Xe,加上其前后32帧的部分Xl和Xr,一共五个部分。对于每个部分,我们将该部分内每个不重叠的16帧的步骤3)提取的特征的均值作为该部分的特征,记作F。最后拼接五部分的特征作为片段特征:
fX=F(Xl)||F(Xs)||F(Xm)||F(Xe)||F(Xr) (1)
步骤7,用全连接和MILpooling层构建多示例学习神经网络,网络结构如图1所示。网络的输入为步骤6得到的片段特征,fc_1中间层,fc_2生成每个类别的temporalinstance的得分,维度是C×m,C是动作类别数,m表示每个类别的instance数量),fc_3输出片段的前后偏移量。为了保持时序性,在fc_1和fc_2层之前的连接上加入了预定义好的权重,两个层对应的部分权重为0.8,否则为0.2。MILpooling层基于fc_2层的temporalinstance得分来生成片段的动作得分,公式为:
Figure BDA0001776437340000041
其中
Figure BDA0001776437340000042
σ是sigmoid激活函数,
Figure BDA0001776437340000043
为类别C对应的temporal instance得分。
网络的损失函数是一个多任务损失:
L=Lcls1Lts2Lreg (3)
其中,Lcls是一个标准的多分类交叉熵损失,Lts是temporalinstance得分的平滑约束,Lreg是片段前后偏移的损失。λ1和λ2都设为1。
平滑约束定义为:
Figure BDA0001776437340000044
其中,N是批处理数量,C是动作类别数量。当第i个训练样本的类别标签是c,则
Figure BDA0001776437340000045
否则
Figure BDA0001776437340000046
p表示temporal instance的得分。
片段前后偏移的损失定义为:
Figure BDA0001776437340000047
其中
Figure BDA0001776437340000048
是网络输出的片段偏移量,o是步骤4得到的该训练样本与真实动作片段的前后偏移量,下标s和e分别表示片段前和片段后。
使用Adam优化器来训练模型,学习率和批处理数量分别设为0.001和128,迭代次数为13000。
对测试视频进行检测包括以下步骤:
步骤8,采用TURN方法生成的测试视频中的动作片段提议;
步骤9,将步骤8的动作片段提议按照步骤6得到片段特征,输入到步骤7中训练好的多示例学习神经网络中,得到动作类别,以及片段前后的偏移。将片段的前后偏移加到原始片段上,构成新的片段,再按照步骤6得到片段特征,输入到步骤7中训练好的多示例学习神经网络中。如此循环三次,得到最终的片段动作类别,动作得分,以及片段的边界;
步骤10,使用步骤5中得到的长度分布对步骤9中的最终的片段动作得分进行调整,具体做法为:
假设一个片段的得分为p,类别为C,长度l;
首先判断l最靠近步骤4中的五个滑动窗口长度中的哪个,假设是16帧,并且假设步骤5中统计的c类动作中片段长度为16帧的分布概率为w,则该片段最后的得分为w×p。
步骤11,使用步骤10中得到的动作片段提议新的动作得分进行非极大值抑制(Non-Maximum Suppression,NMS)算法计算,去除冗余检测得到动作检测结果。设置NMS中的重叠率阈值α稍小于检测结果进行评价时平均精度均值(mean Average Precision,mAP)使用的重叠率阈值θ,α=θ-0.1。

Claims (4)

1.一种基于时间演化建模和多示例学习的视频动作检测方法,其特征在于,包括:特征提取、制作训练样本并统计动作长度分布、对训练样本进行时间演化建模并训练多示例学习神经网络、对测试视频进行检测四个过程;其中
(1)特征提取过程包括以下步骤:
步骤101,把训练视频以及测试视频中每一个16帧的视频片段输入到C3D网络中,提取网络的fc6层的输出作为特征;
步骤102,将步骤101中得到特征使用主成分分析进行降维;
步骤103,将步骤102中降维后的特征使用L2范数对特征进行归一化;
(2)制作训练样本并统计动作长度分布包括以下步骤:
步骤201,使用滑动窗口法在训练视频上按照重叠率剪切动作片段;
步骤202,统计步骤201中得到动作片段的长度分布,即每个动作类中不同滑动窗口长度的训练样本所占的比率;
(3)对训练样本进行时间演化建模并训练多示例学习神经网络包括以下步骤:
步骤301,将步骤201得到的每个训练动作片段均分为三段,同时加上片段前后的32帧片段,一共五段,每段取步骤103中每个16帧的特征的均值,拼接为片段特征;
步骤302,用全连接和MIL pooling层构建多示例学习神经网络,输入为301得到的片段特征,输出为片段的动作类别以及片段的前后偏移量,损失函数为多任务损失,训练神经网络;用全连接和MIL pooling层构建多示例学习神经网络,网络的输入为步骤301得到的片段特征,fc_1中间层,fc_2生成每个类别的temporal instance的得分,维度是C×m,C是动作类别数,m表示每个类别的instance数量,fc_3输出片段的前后偏移量;
在fc_1和fc_2层之前的连接上加入了预定义好的权重,两个层对应的部分权重为0.8,否则为0.2;MIL pooling层基于fc_2层的temporal instance得分来生成片段的动作得分,公式为
Figure FDA0003146601400000011
其中,
Figure FDA0003146601400000012
σ是sigmoid激活函数,
Figure FDA0003146601400000013
为类别C对应的temporal instance得分,gc为全局池化函数,a为控制激活函数σ斜率的固定参数,bc为每个类别C的适应性软阈值;
网络的损失函数是一个多任务损失:
L=Lcls1Lts2Lreg (3)
其中,Lcls是一个标准的多分类交叉熵损失,Lts是temporal instance得分的平滑约束,Lreg是片段前后偏移的损失,λ1和λ2都设为1,平滑约束定义为:
Figure FDA0003146601400000021
其中,N是批处理数量,C是动作类别数量,当第i个训练样本的类别标签是c,则
Figure FDA0003146601400000022
否则
Figure FDA0003146601400000023
P表示temporal instance的得分;
片段前后偏移的损失定义为:
Figure FDA0003146601400000024
其中,
Figure FDA0003146601400000025
是网络输出的片段偏移量,o是步骤201得到的该训练样本与真实动作片段的前后偏移量,下标s和e分别表示片段前和片段后;
使用Adam优化器来训练模型,学习率和批处理数量分别设为0.001和128,迭代次数为13000;
(4)对测试视频进行检测包括以下步骤:
步骤401,用现有的生成动作片段提议方法得到测试视频上的动作片段提议;
步骤402,将步骤401的动作片段提议按照步骤301得到片段特征,输入到步骤302中训练好的多示例学习神经网络中,得到动作类别,以及片段前后的偏移;将片段的前后偏移加到原始片段上,构成新的片段,再按照步骤301得到片段特征,输入到步骤302中训练好的多示例学习神经网络中,如此循环三次,得到最终输出的片段动作类别,动作得分,以及片段的边界;
步骤403,使用步骤202中得到的长度分布对步骤402中的最终的片段动作得分进行调整;
步骤404,使用步骤403中得到的动作片段提议新的动作得分进行非极大值抑制算法计算,去除冗余检测得到动作检测结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤201的具体步骤如下:
使用滑动窗口法在训练视频上按照重叠率剪切动作片段,滑动窗口的长度分别为16帧、32帧、64帧、128帧、256帧、512帧;
如果一个滑动窗口与任意一个真实动作片段的交并比大于0.5,将该滑动窗口作为对应动作的训练样本,同时记录该滑动窗口与对应动作片段的前后偏移量;
如果一个滑动窗口与任意一个真实动作片段都不相交,将该滑动窗口作为背景类样本,背景类训练样本从背景类样本中随机选取,数量与每个动作的训练样本的平均数量相同。
3.根据权利要求1所述的方法,其特征在于,所述步骤301的具体步骤如下:
给定一个视频片段X,将其均分为三部分Xs、Xm和Xe,加上其前后32帧的部分Xl和Xr一共五个部分;
对于每个部分,将该部分内每个不重叠的16帧的步骤103提取的特征的均值作为该部分的特征,记作F;
最后拼接五部分的特征作为片段特征fX
fX=F(Xl)||F(Xs)||||F(Xm)||||F(Xe)||F(Xr) (1)。
4.根据权利要求2所述的方法,其特征在于,步骤403的具体过程为:
假设一个片段的得分为p,类别为C,长度l;
首先判断l最靠近步骤201中的五个滑动窗口长度中的哪个,假设是X帧,并且假设步骤5中统计的c类动作中片段长度为X帧的分布概率为w,则该片段最后的得分为w×p。
CN201810971986.5A 2018-08-24 2018-08-24 基于时间演化建模和多示例学习的视频动作检测方法 Active CN109271876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810971986.5A CN109271876B (zh) 2018-08-24 2018-08-24 基于时间演化建模和多示例学习的视频动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810971986.5A CN109271876B (zh) 2018-08-24 2018-08-24 基于时间演化建模和多示例学习的视频动作检测方法

Publications (2)

Publication Number Publication Date
CN109271876A CN109271876A (zh) 2019-01-25
CN109271876B true CN109271876B (zh) 2021-10-15

Family

ID=65154340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810971986.5A Active CN109271876B (zh) 2018-08-24 2018-08-24 基于时间演化建模和多示例学习的视频动作检测方法

Country Status (1)

Country Link
CN (1) CN109271876B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992679A (zh) * 2019-03-21 2019-07-09 腾讯科技(深圳)有限公司 一种多媒体数据的分类方法及装置
CN110059584B (zh) * 2019-03-28 2023-06-02 中山大学 一种结合边界分布与纠正的事件提名方法
CN112016576A (zh) * 2019-05-30 2020-12-01 浙江商汤科技开发有限公司 训练神经网络的方法、图像处理方法、装置、设备和介质
CN110236530A (zh) * 2019-06-20 2019-09-17 武汉中旗生物医疗电子有限公司 一种心电信号qrs波群定位方法、装置及计算机存储介质
CN110602526B (zh) * 2019-09-11 2021-09-21 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
US11410082B2 (en) 2019-11-12 2022-08-09 International Business Machines Corporation Data loss machine learning model update
CN110826702A (zh) * 2019-11-18 2020-02-21 方玉明 一种多任务深度网络的异常事件检测方法
CN111160117A (zh) * 2019-12-11 2020-05-15 青岛联合创智科技有限公司 一种基于多示例学习建模的异常行为检测方法
CN111222476B (zh) * 2020-01-10 2023-06-06 北京百度网讯科技有限公司 视频时序动作的检测方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138953A (zh) * 2015-07-09 2015-12-09 浙江大学 一种基于连续的多实例学习的视频中动作识别的方法
US9443169B2 (en) * 2014-02-21 2016-09-13 Xerox Corporation Object classification with constrained multiple instance support vector machine
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443169B2 (en) * 2014-02-21 2016-09-13 Xerox Corporation Object classification with constrained multiple instance support vector machine
CN105138953A (zh) * 2015-07-09 2015-12-09 浙江大学 一种基于连续的多实例学习的视频中动作识别的方法
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Key Volume Mining Deep Framework for Action Recognition;Wangjiang Zhu等;《2016 IEEE Conference on Computer Vision and Pattern Recognition》;20160630;第1991-1999页 *

Also Published As

Publication number Publication date
CN109271876A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109271876B (zh) 基于时间演化建模和多示例学习的视频动作检测方法
Richard et al. Neuralnetwork-viterbi: A framework for weakly supervised video learning
US20170228618A1 (en) Video classification method and apparatus
CN109620152B (zh) 一种基于MutiFacolLoss-Densenet的心电信号分类方法
CN109508671B (zh) 一种基于弱监督学习的视频异常事件检测系统及其方法
CN107945210B (zh) 基于深度学习和环境自适应的目标跟踪方法
CN105205475A (zh) 一种动态手势识别方法
CN108536784B (zh) 评论信息情感分析方法、装置、计算机存储介质和服务器
CN110928918B (zh) 时间序列数据组成模式的提取方法、装置及终端设备
CN108804577B (zh) 一种资讯标签兴趣度的预估方法
CN112949408B (zh) 一种过鱼通道目标鱼类实时识别方法和系统
CN108595558B (zh) 一种数据均衡策略和多特征融合的图像标注方法
CN109858454B (zh) 一种基于双模型自适应核相关滤波追踪方法
CN110110663A (zh) 一种基于人脸属性的年龄识别方法及系统
CN114549470B (zh) 基于卷积神经网络和多粒度注意力的手骨关键性区域获取方法
CN112560827A (zh) 模型训练方法、装置、预测方法、电子设备及介质
CN109614896A (zh) 一种基于递归卷积神经网络的视频内容语义理解的方法
CN112258557A (zh) 一种基于空间注意力特征聚合的视觉跟踪方法
CN109918503B (zh) 基于动态窗口自注意力机制提取语义特征的槽填充方法
CN114580517A (zh) 一种图像识别模型的确定方法及装置
CN111144462A (zh) 一种雷达信号的未知个体识别方法及装置
CN114399661A (zh) 一种实例感知主干网络训练方法
CN109190505A (zh) 基于视觉理解的图像识别方法
CN111160161B (zh) 一种基于噪声剔除的自步学习人脸年龄估计方法
CN113035348A (zh) 一种基于gru特征融合的糖尿病诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant