CN109271876B - 基于时间演化建模和多示例学习的视频动作检测方法 - Google Patents
基于时间演化建模和多示例学习的视频动作检测方法 Download PDFInfo
- Publication number
- CN109271876B CN109271876B CN201810971986.5A CN201810971986A CN109271876B CN 109271876 B CN109271876 B CN 109271876B CN 201810971986 A CN201810971986 A CN 201810971986A CN 109271876 B CN109271876 B CN 109271876B
- Authority
- CN
- China
- Prior art keywords
- segment
- action
- training
- frames
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于时间演化建模和多示例学习的动作检测方法,包括特征提取、制作训练样本并统计动作长度分布、对训练样本进行时间演化建模并训练多示例学习神经网络、对测试视频进行检测四个过程;首先,通过滑动窗口的方法来切分训练视频得到训练动作片段;然后将训练动作片段进行时间演化建模作为网络的输入特征;再然后使用多任务损失函数来训练网络;最后使用训练好的网络对测试视频上的动作片段提议进行分类和边界估计,得到测试视频上的动作检测结果。
Description
技术领域
本发明涉及一种计算机视觉领域中视频人体动作检测技术,特别是一种基于时间演化建模和多示例学习的视频动作检测方法。
背景技术
视频中的人体动作检测是一项重要且具有挑战性的任务,由于其在视频分析、智能视频监控、智能家居、人机交互、虚拟现实等领域的广泛应用,人体动作检测受到了越来越多的关注。给定一个未剪辑的长视频,人体动作检测任务不仅要输出动作类别,而且要给出精确的动作开始时间以及动作结束时间。
目前主流的动作检测方法主要包含两个步骤。第一步在原始视频上提取动作片段提议,第二步对动作片段提议进行分类来得到检测的结果。但是这些基于动作片段提议的方法往往会得到不精确的动作边界,因为动作提议片段的长度通常是预先定义好的。此外,现有的方法对动作片段提议的分类效果还是不尽如人意的。
发明内容
本发明的目的在于提供一种基于时间演化建模和多示例学习的视频动作检测方法,该方法动作检测的边界准确,动作片段提议分类准确率高。
实现本发明目的的技术方案为:一种基于时间演化建模和多示例学习的视频动作检测方法,包括特征提取、制作训练样本并统计动作长度分布、对训练样本进行时间演化建模并训练多示例学习神经网络、对测试视频进行检测四个过程;其中
(1)特征提取过程包括以下步骤:
步骤101,把训练视频以及测试视频中每一个16帧的视频片段输入到C3D网络中,提取网络的fc6层的输出作为特征;
步骤102,将步骤101中得到特征使用主成分分析进行降维;
步骤103,将步骤102中降维后的特征使用L2范数对特征进行归一化;
(2)制作训练样本并统计动作长度分布包括以下步骤:
步骤201,使用滑动窗口法在训练视频上按照重叠率剪切动作片段;
步骤202,统计步骤201中得到动作片段的长度分布;
(3)对训练样本进行时间演化建模并训练多示例学习神经网络包括以下步骤:
步骤301,将步骤201得到的每个训练动作片段均分为三段,同时加上片段前后的32帧片段,一共五段,每段取步骤103中每个16帧的特征的均值,拼接为片段特征;
步骤302,用全连接和MILpooling层构建多示例学习神经网络,输入为301得到的片段特征,输出为片段的动作类别以及片段的前后偏移量,损失函数为多任务损失,训练神经网络;
(4)对测试视频进行检测包括以下步骤:
步骤401,用现有的生成动作片段提议方法得到测试视频上的动作片段提议;
步骤402,将步骤401的动作片段提议按照步骤301得到片段特征,输入到步骤302中训练好的多示例学习神经网络中,得到动作类别,以及片段前后的偏移;将片段的前后偏移加到原始片段上,构成新的片段,再按照步骤301得到片段特征,输入到步骤302中训练好的多示例学习神经网络中,如此循环三次,得到最终输出的片段动作类别,动作得分,以及片段的边界;
步骤403,使用步骤202中得到的长度分布对步骤402中的最终的片段动作得分进行调整;
步骤404,使用步骤403中得到的动作片段提议新的动作得分进行非极大值抑制算法计算,去除冗余检测得到动作检测结果。
本发明与现有技术相比,具有以下优点:本发明使用的时间演化建模能有效地利用动作的结构特征和上下文信息,并且本发明使用的多任务损失函数不仅能对动作片段进行分类,而且能对片段的边界进行精确调整,能够大幅度的提高动作检测结果的精度。
下面结合说明书附图对本发明作进一步描述。
附图说明
图1是本发明的训练流程图以及多示例学习网络结构示意图。
图2是本发明使用的时间演化建模示意图。
具体实施方式
本发明提出一种基于时间演化建模和多示例学习的动作检测方法,包括特征提取、制作训练样本并统计动作长度分布、对训练样本进行时间演化建模并训练多示例学习神经网络、对测试视频进行检测四个过程,对未剪辑的长视频进行一系列的计算,得到其中人体动作发生的开始时间、结束时间以及动作的类别。
(1)特征提取过程包括以下步骤:
步骤1,把训练视频以及测试视频输入C3D网络中。C3D网络第一层的输入为视频中的16帧图像,把视频每16帧作为一个切片输入网络中,第(1~15)、(2~16)、……帧作为输入,然后提取网络最后第二个全连接层fc6层的输出作为特征,输出为4096维。于是,若视频的帧数为F,视频的特征为(F-15)×4096维。
步骤2,将步骤1中得到特征使用主成分分析进行降维,从4096维降到500维。
步骤,将步骤2中降维后的特征使用L2范数进行归一化。
(2)制作训练样本并统计动作长度分布包括以下步骤:
步骤4,使用滑动窗口法在训练视频上按照重叠率剪切动作片段,滑动窗口的长度为16帧、32帧、64帧、128帧、256帧、512帧,如果一个滑动窗口与任意一个真实动作片段的交并比(IoU)大于0.5,我们就将该滑动窗口作为对应动作的训练样本,同时记录该滑动窗口与对应动作片段的前后偏移量,如果一个滑动窗口与任意一个真实动作片段都不相交,那么我们就将该滑动窗口作为背景类样本,背景类训练样本从背景类样本中随机选取,数量与每个动作的训练样本的平均数量相同。
步骤5,统计步骤4中得到动作片段的长度分布,即每个动作类中,不同滑动窗口长度的训练样本所占的比率;
对训练样本进行时间演化建模并训练多示例学习神经网络包括以下步骤:
步骤6,如图2所示,将步骤4)得到的每个训练动作片段进行时间演化建模:给定一个视频片段X,我们将其均分为三部分Xs、Xm和Xe,加上其前后32帧的部分Xl和Xr,一共五个部分。对于每个部分,我们将该部分内每个不重叠的16帧的步骤3)提取的特征的均值作为该部分的特征,记作F。最后拼接五部分的特征作为片段特征:
fX=F(Xl)||F(Xs)||F(Xm)||F(Xe)||F(Xr) (1)
步骤7,用全连接和MILpooling层构建多示例学习神经网络,网络结构如图1所示。网络的输入为步骤6得到的片段特征,fc_1中间层,fc_2生成每个类别的temporalinstance的得分,维度是C×m,C是动作类别数,m表示每个类别的instance数量),fc_3输出片段的前后偏移量。为了保持时序性,在fc_1和fc_2层之前的连接上加入了预定义好的权重,两个层对应的部分权重为0.8,否则为0.2。MILpooling层基于fc_2层的temporalinstance得分来生成片段的动作得分,公式为:
网络的损失函数是一个多任务损失:
L=Lcls+λ1Lts+λ2Lreg (3)
其中,Lcls是一个标准的多分类交叉熵损失,Lts是temporalinstance得分的平滑约束,Lreg是片段前后偏移的损失。λ1和λ2都设为1。
平滑约束定义为:
片段前后偏移的损失定义为:
使用Adam优化器来训练模型,学习率和批处理数量分别设为0.001和128,迭代次数为13000。
对测试视频进行检测包括以下步骤:
步骤8,采用TURN方法生成的测试视频中的动作片段提议;
步骤9,将步骤8的动作片段提议按照步骤6得到片段特征,输入到步骤7中训练好的多示例学习神经网络中,得到动作类别,以及片段前后的偏移。将片段的前后偏移加到原始片段上,构成新的片段,再按照步骤6得到片段特征,输入到步骤7中训练好的多示例学习神经网络中。如此循环三次,得到最终的片段动作类别,动作得分,以及片段的边界;
步骤10,使用步骤5中得到的长度分布对步骤9中的最终的片段动作得分进行调整,具体做法为:
假设一个片段的得分为p,类别为C,长度l;
首先判断l最靠近步骤4中的五个滑动窗口长度中的哪个,假设是16帧,并且假设步骤5中统计的c类动作中片段长度为16帧的分布概率为w,则该片段最后的得分为w×p。
步骤11,使用步骤10中得到的动作片段提议新的动作得分进行非极大值抑制(Non-Maximum Suppression,NMS)算法计算,去除冗余检测得到动作检测结果。设置NMS中的重叠率阈值α稍小于检测结果进行评价时平均精度均值(mean Average Precision,mAP)使用的重叠率阈值θ,α=θ-0.1。
Claims (4)
1.一种基于时间演化建模和多示例学习的视频动作检测方法,其特征在于,包括:特征提取、制作训练样本并统计动作长度分布、对训练样本进行时间演化建模并训练多示例学习神经网络、对测试视频进行检测四个过程;其中
(1)特征提取过程包括以下步骤:
步骤101,把训练视频以及测试视频中每一个16帧的视频片段输入到C3D网络中,提取网络的fc6层的输出作为特征;
步骤102,将步骤101中得到特征使用主成分分析进行降维;
步骤103,将步骤102中降维后的特征使用L2范数对特征进行归一化;
(2)制作训练样本并统计动作长度分布包括以下步骤:
步骤201,使用滑动窗口法在训练视频上按照重叠率剪切动作片段;
步骤202,统计步骤201中得到动作片段的长度分布,即每个动作类中不同滑动窗口长度的训练样本所占的比率;
(3)对训练样本进行时间演化建模并训练多示例学习神经网络包括以下步骤:
步骤301,将步骤201得到的每个训练动作片段均分为三段,同时加上片段前后的32帧片段,一共五段,每段取步骤103中每个16帧的特征的均值,拼接为片段特征;
步骤302,用全连接和MIL pooling层构建多示例学习神经网络,输入为301得到的片段特征,输出为片段的动作类别以及片段的前后偏移量,损失函数为多任务损失,训练神经网络;用全连接和MIL pooling层构建多示例学习神经网络,网络的输入为步骤301得到的片段特征,fc_1中间层,fc_2生成每个类别的temporal instance的得分,维度是C×m,C是动作类别数,m表示每个类别的instance数量,fc_3输出片段的前后偏移量;
在fc_1和fc_2层之前的连接上加入了预定义好的权重,两个层对应的部分权重为0.8,否则为0.2;MIL pooling层基于fc_2层的temporal instance得分来生成片段的动作得分,公式为
网络的损失函数是一个多任务损失:
L=Lcls+λ1Lts+λ2Lreg (3)
其中,Lcls是一个标准的多分类交叉熵损失,Lts是temporal instance得分的平滑约束,Lreg是片段前后偏移的损失,λ1和λ2都设为1,平滑约束定义为:
片段前后偏移的损失定义为:
使用Adam优化器来训练模型,学习率和批处理数量分别设为0.001和128,迭代次数为13000;
(4)对测试视频进行检测包括以下步骤:
步骤401,用现有的生成动作片段提议方法得到测试视频上的动作片段提议;
步骤402,将步骤401的动作片段提议按照步骤301得到片段特征,输入到步骤302中训练好的多示例学习神经网络中,得到动作类别,以及片段前后的偏移;将片段的前后偏移加到原始片段上,构成新的片段,再按照步骤301得到片段特征,输入到步骤302中训练好的多示例学习神经网络中,如此循环三次,得到最终输出的片段动作类别,动作得分,以及片段的边界;
步骤403,使用步骤202中得到的长度分布对步骤402中的最终的片段动作得分进行调整;
步骤404,使用步骤403中得到的动作片段提议新的动作得分进行非极大值抑制算法计算,去除冗余检测得到动作检测结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤201的具体步骤如下:
使用滑动窗口法在训练视频上按照重叠率剪切动作片段,滑动窗口的长度分别为16帧、32帧、64帧、128帧、256帧、512帧;
如果一个滑动窗口与任意一个真实动作片段的交并比大于0.5,将该滑动窗口作为对应动作的训练样本,同时记录该滑动窗口与对应动作片段的前后偏移量;
如果一个滑动窗口与任意一个真实动作片段都不相交,将该滑动窗口作为背景类样本,背景类训练样本从背景类样本中随机选取,数量与每个动作的训练样本的平均数量相同。
3.根据权利要求1所述的方法,其特征在于,所述步骤301的具体步骤如下:
给定一个视频片段X,将其均分为三部分Xs、Xm和Xe,加上其前后32帧的部分Xl和Xr一共五个部分;
对于每个部分,将该部分内每个不重叠的16帧的步骤103提取的特征的均值作为该部分的特征,记作F;
最后拼接五部分的特征作为片段特征fX:
fX=F(Xl)||F(Xs)||||F(Xm)||||F(Xe)||F(Xr) (1)。
4.根据权利要求2所述的方法,其特征在于,步骤403的具体过程为:
假设一个片段的得分为p,类别为C,长度l;
首先判断l最靠近步骤201中的五个滑动窗口长度中的哪个,假设是X帧,并且假设步骤5中统计的c类动作中片段长度为X帧的分布概率为w,则该片段最后的得分为w×p。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810971986.5A CN109271876B (zh) | 2018-08-24 | 2018-08-24 | 基于时间演化建模和多示例学习的视频动作检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810971986.5A CN109271876B (zh) | 2018-08-24 | 2018-08-24 | 基于时间演化建模和多示例学习的视频动作检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109271876A CN109271876A (zh) | 2019-01-25 |
CN109271876B true CN109271876B (zh) | 2021-10-15 |
Family
ID=65154340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810971986.5A Active CN109271876B (zh) | 2018-08-24 | 2018-08-24 | 基于时间演化建模和多示例学习的视频动作检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271876B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992679A (zh) * | 2019-03-21 | 2019-07-09 | 腾讯科技(深圳)有限公司 | 一种多媒体数据的分类方法及装置 |
CN110059584B (zh) * | 2019-03-28 | 2023-06-02 | 中山大学 | 一种结合边界分布与纠正的事件提名方法 |
CN112016576A (zh) * | 2019-05-30 | 2020-12-01 | 浙江商汤科技开发有限公司 | 训练神经网络的方法、图像处理方法、装置、设备和介质 |
CN110236530A (zh) * | 2019-06-20 | 2019-09-17 | 武汉中旗生物医疗电子有限公司 | 一种心电信号qrs波群定位方法、装置及计算机存储介质 |
CN110602526B (zh) * | 2019-09-11 | 2021-09-21 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、计算机设备及存储介质 |
US11410082B2 (en) | 2019-11-12 | 2022-08-09 | International Business Machines Corporation | Data loss machine learning model update |
CN110826702A (zh) * | 2019-11-18 | 2020-02-21 | 方玉明 | 一种多任务深度网络的异常事件检测方法 |
CN111160117A (zh) * | 2019-12-11 | 2020-05-15 | 青岛联合创智科技有限公司 | 一种基于多示例学习建模的异常行为检测方法 |
CN111222476B (zh) * | 2020-01-10 | 2023-06-06 | 北京百度网讯科技有限公司 | 视频时序动作的检测方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138953A (zh) * | 2015-07-09 | 2015-12-09 | 浙江大学 | 一种基于连续的多实例学习的视频中动作识别的方法 |
US9443169B2 (en) * | 2014-02-21 | 2016-09-13 | Xerox Corporation | Object classification with constrained multiple instance support vector machine |
CN106897714A (zh) * | 2017-03-23 | 2017-06-27 | 北京大学深圳研究生院 | 一种基于卷积神经网络的视频动作检测方法 |
-
2018
- 2018-08-24 CN CN201810971986.5A patent/CN109271876B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9443169B2 (en) * | 2014-02-21 | 2016-09-13 | Xerox Corporation | Object classification with constrained multiple instance support vector machine |
CN105138953A (zh) * | 2015-07-09 | 2015-12-09 | 浙江大学 | 一种基于连续的多实例学习的视频中动作识别的方法 |
CN106897714A (zh) * | 2017-03-23 | 2017-06-27 | 北京大学深圳研究生院 | 一种基于卷积神经网络的视频动作检测方法 |
Non-Patent Citations (1)
Title |
---|
A Key Volume Mining Deep Framework for Action Recognition;Wangjiang Zhu等;《2016 IEEE Conference on Computer Vision and Pattern Recognition》;20160630;第1991-1999页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109271876A (zh) | 2019-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271876B (zh) | 基于时间演化建模和多示例学习的视频动作检测方法 | |
Richard et al. | Neuralnetwork-viterbi: A framework for weakly supervised video learning | |
US20170228618A1 (en) | Video classification method and apparatus | |
CN109620152B (zh) | 一种基于MutiFacolLoss-Densenet的心电信号分类方法 | |
CN109508671B (zh) | 一种基于弱监督学习的视频异常事件检测系统及其方法 | |
CN107945210B (zh) | 基于深度学习和环境自适应的目标跟踪方法 | |
CN105205475A (zh) | 一种动态手势识别方法 | |
CN108536784B (zh) | 评论信息情感分析方法、装置、计算机存储介质和服务器 | |
CN110928918B (zh) | 时间序列数据组成模式的提取方法、装置及终端设备 | |
CN108804577B (zh) | 一种资讯标签兴趣度的预估方法 | |
CN112949408B (zh) | 一种过鱼通道目标鱼类实时识别方法和系统 | |
CN108595558B (zh) | 一种数据均衡策略和多特征融合的图像标注方法 | |
CN109858454B (zh) | 一种基于双模型自适应核相关滤波追踪方法 | |
CN110110663A (zh) | 一种基于人脸属性的年龄识别方法及系统 | |
CN114549470B (zh) | 基于卷积神经网络和多粒度注意力的手骨关键性区域获取方法 | |
CN112560827A (zh) | 模型训练方法、装置、预测方法、电子设备及介质 | |
CN109614896A (zh) | 一种基于递归卷积神经网络的视频内容语义理解的方法 | |
CN112258557A (zh) | 一种基于空间注意力特征聚合的视觉跟踪方法 | |
CN109918503B (zh) | 基于动态窗口自注意力机制提取语义特征的槽填充方法 | |
CN114580517A (zh) | 一种图像识别模型的确定方法及装置 | |
CN111144462A (zh) | 一种雷达信号的未知个体识别方法及装置 | |
CN114399661A (zh) | 一种实例感知主干网络训练方法 | |
CN109190505A (zh) | 基于视觉理解的图像识别方法 | |
CN111160161B (zh) | 一种基于噪声剔除的自步学习人脸年龄估计方法 | |
CN113035348A (zh) | 一种基于gru特征融合的糖尿病诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |