CN111079646A - 基于深度学习的弱监督视频时序动作定位的方法及系统 - Google Patents
基于深度学习的弱监督视频时序动作定位的方法及系统 Download PDFInfo
- Publication number
- CN111079646A CN111079646A CN201911296268.3A CN201911296268A CN111079646A CN 111079646 A CN111079646 A CN 111079646A CN 201911296268 A CN201911296268 A CN 201911296268A CN 111079646 A CN111079646 A CN 111079646A
- Authority
- CN
- China
- Prior art keywords
- video
- action
- features
- class
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009471 action Effects 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013135 deep learning Methods 0.000 title claims abstract description 28
- 230000004913 activation Effects 0.000 claims abstract description 50
- 230000003287 optical effect Effects 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 claims description 10
- 230000004807 localization Effects 0.000 claims description 8
- 125000004122 cyclic group Chemical group 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 5
- 230000002779 inactivation Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 2
- 239000010410 layer Substances 0.000 claims 4
- 239000002355 dual-layer Substances 0.000 claims 1
- 238000003909 pattern recognition Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的弱监督视频时序动作定位方法及系统,该方法包括:S1,提取视频中当前帧及前一帧,利用光流估算网络提取光流,并连同等间隔对视频采样的帧输入双流动作识别网络提取视频特征;S2,将视频特征进行语义一致性建模,获得嵌入特征;S3,训练分类模块将嵌入特征映射到类激活序列;S4,采用注意力模块更新视频特征;S5,将更新后的视频特征作为下一次循环的输入,重复S2‑S4直到停止;S6,将每次循环产生的类激活序列融合,计算估计的动作类别与真实类别标签的分类损失;S7,将每次循环的嵌入特征融合计算动作特征间的相似性损失;S8,根据分类损失及相似性损失得到目标损失,更新系统模型参数。
Description
技术领域
本发明涉及基于深度学习的计算机视觉领域,特别是涉及一种基于深度学习的弱监督视频时序动作定位的方法及系统。
背景技术
弱监督视频时序动作定位是指在仅依赖视频级别动作类别标注的情况下,定位动作实例在视频中的起始时间和结束时间。最近,由于其在计算机视觉领域其他任务的广泛应用,例如:稠密视频描述、视频动作的时空检测,这项任务逐渐引起人们的重视。
近年来,时序动作定位技术取得了长足的进步。基于深度学习的方法,尤其是卷积神经网络,在其中占据着重要地位。例如,L.Wang等人在2017年的研究工作“UntrimmedNetsfor Weakly Supervised Action Recognition and Detection”(In Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,pages 6402-6411,2017)采用预训练的双流卷积网络提取视频特征,然后应用注意力机制直接生成最终的类激活序列,通过阈值和Softmax操作分别得到动作定位结果和视频级别的分类结果。又例如,P.Nguyen等人在2018年的研究工作“Weakly Supervised Action Localization bySparse Temporal Pooling Network”(In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,pages 6752-6761,2018)中,在L.Wang等人的研究工作基础上提出了注意力的稀疏损失来规则化注意力权重,生成最终的类激活序列。然而,这些方法仅关注视频中最具判别性的片段而非所有的动作相关片段,导致动作定位不完整或是漏检。
另一方面,K.K.Singh等人在2017年的研究工作“Hide-and-seek:Forcing aNetwork to be Meticulous for Weakly-Supervised Object and ActionLocalization”(In Proceedings of the IEEE International Conference on ComputerVision,pages 3544-3553,2017)利用随机隐藏视频帧的策略训练动作分类网络。然而,这一方法的训练过程不可控制,且忽略了视频中动作的语义一致性,没有显式地建模动作语义一致性用于指导动作定位过程。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于深度学习的弱监督视频时序动作定位方法及系统,有效地利用明确的运动信息来更精准定位视频中的动作实例。
为达上述及其它目的,本发明提出一种基于深度学习的弱监督视频时序动作定位方法,包括如下步骤:
步骤S1,提取视频中当前帧以及其前一帧,利用光流估算网络提取光流,并连同等间隔对视频采样的帧输入预训练的双流动作识别网络,提取视频特征;
步骤S2,将提取的视频特征通过循环神经网络进行语义一致性建模,获得所述视频特征的嵌入表示;
步骤S3,训练分类模块将步骤S2获得的嵌入特征映射到类激活序列;
步骤S4,采用基于嵌入特征的注意力模块根据步骤S2获得的嵌入特征得到视频时间维度的注意力分布,并使用所述注意力分布更新视频特征;
步骤S5,将更新后的视频特征作为下一次循环的输入,重复步骤S2-S4的训练过程,直到符合停止条件;
步骤S6,将每次循环产生的类激活序列进行融合,进而解析生成时序动作定位结果和估计的动作类别,计算估计的动作类别与真实动作类别标签的分类损失;
步骤S7,将每次循环的嵌入特征进行融合,计算视频动作特征间的相似性损失;
步骤S8,将分类损失及相似性损失按权相加,得到目标损失,更新系统的模型参数。
优选地,于步骤S1中,所述光流估算网络采用TV-L1网络,在处理视频第一帧时,将第一帧与其自身合并一起,输入到所述TV-L1网络中通过TV-L1算法得到光流。
优选地,于步骤S1中,所述预训练的双流动作识别网络采用膨胀三维卷积网络,以实现视频外观和运动特征的提取。
优选地,于步骤S2中,所述循环神经网络采用长短期记忆网络,于每次循环中接收上一次循环的网络隐含状态以及更新的视频特征,进行特征语义一致性建模。
优选地,于步骤S2中,在第一次循环时,所述长短期记忆网络仅接收原始视频特征用于建模特征语义一致性。
优选地,于步骤S3中,所述分类模块采用一个全连接层将嵌入特征映射到隐含层,采用修正线性单元ReLU激活后使用随机失活层防止过拟合,最后使用一个全连接层将隐含特征映射到动作类别空间,以产生所述类激活序列。
优选地,于步骤S4中,所述基于嵌入特征的注意力模块采用双层感知机根据步骤S2得到的嵌入特征预测所述视频特征在时间维度上的注意力分布,并通过计算注意力分布的反相用于更新原始视频特征。
优选地,于步骤S6中,将步骤S5中每次循环产生的类激活序列沿循环维度进行张量拼接,应用平均池化操作得到融合的类激活序列,并对融合的类激活序列执行阈值操作和Softmax操作分别得到动作实例的时序定位结果和视频级别的估计类别,将估计的动作类别与真实的动作类别标签计算交叉熵作为分类损失。
优选地,于步骤S7中,将步骤S5中每次循环的嵌入特征沿循环维度进行张量拼接,应用平均池化操作得到融合的嵌入特征,使用视频特征向量余弦相似性的铰链损失作为动作的相似性损失。
为达到上述目的,本发明还提供一种基于深度学习的弱监督视频时序动作定位系统,包括:
特征提取单元,用于提取视频中当前帧以及其前一帧,利用光流估算网络提取光流,并连同等间隔对视频采样的帧输入预训练的双流动作识别网络,提取视频特征,输入至语义一致性建模单元;
语义一致性建模单元,用于将提取的视频特征通过循环神经网络进行语义一致性建模,建立当前视频特征与历史动作语义信息的联系,生成所述视频特征的保持语义一致性的嵌入特征,输入至类激活序列单元和特征更新单元;
类激活序列生成单元,用于将嵌入特征进行解析生成视频的类激活序列;
特征更新单元,用于使用嵌入特征生成视频时间维度的注意力分布,并使用所述注意力分布更新视频特征;
循环训练单元,用于多次循环式地对视频特征进行所述语义一致性建模单元、类激活序列生成单元以及特征更新单元的训练过程,直到满足设定的停止条件时停止训练。
分类损失计算单元,用于融合每次循环生成的类激活序列并解析成时序动作定位结果和估计的动作类别,将所述估计的动作类别与真实的动作类别标签计算分类损失;
相似性损失计算单元,用于融合每次循环生成的嵌入特征,计算视频动作特征间的相似性损失;
权重更新单元,用于使分类损失和相似性损失加权求和,得到目标损失,更新系统的模型参数。
与现有技术相比,本发明一种基于深度学习的弱监督视频时序动作定位方法及系统通过光流估计算法提取光流,并连同等间隔采样的帧输入双流动作识别网络提取视频外观和运动特征,采用循环神经网络建模特征语义一致性生成特征的嵌入表示,采用基于嵌入特征的分类模块和注意力模块分别生成类激活序列和更新视频特征,多次循环地进行训练过程直到符合停止条件,融合每次循环生成的类激活序列和动作特征,解析生成动作定位结果和估计的动作类别,计算估计类别与真实类别的分类损失并计算视频间特征相似性损失,更新系统模型参数,实现了有效利用动作语义一致性来逐步精准检测出视频中的动作实例的目的。
附图说明
图1为本发明一种基于深度学习的弱监督视频时序动作定位方法的步骤流程图;
图2为本发明具体实施例之基于深度学习的弱监督视频时序动作定位过程示意图;
图3(a)与图3(b)为本发明具体实施例中基于嵌入特征的分类模块和注意力模块的结构图;
图4为本发明一种基于深度学习的弱监督视频时序动作定位系统的系统架构图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于深度学习的弱监督视频时序动作定位方法的步骤流程图,图2为本发明具体实施例之基于深度学习的弱监督视频时序动作定位过程示意图。如图1及图2所示,本发明一种基于深度学习的弱监督视频时序动作定位方法,包括如下步骤:
步骤S1,提取视频中当前帧以及其前一帧,通过光流估计算法提取光流,并连同等间隔采样的帧输入预训练的双流动作识别网络,提取视频外观和运动特征。
具体地,步骤S1进一步包括:
步骤S101,获取视频的当前帧以及其前一帧,将当前帧与前一帧合并在一起,通过光流估计算法提取光流。
在本发明具体实施例中,为了得到高质量的光流估算结果,参考了C.Zach等人的研究工作“A Duality Based Approach for Realtime TV-L1 Optical Flow”(InProceedings of the 29th DAGM Symposium on Pattern Recognition,pages 214-223,2007),使用TV-L1作为光流估算网络。需说明的是,对于视频中的第一帧而言,由于它没有前一帧,本发明将它自身看作是前一帧,然后将第一帧与其自身合并一起,输入到TV-L1光流估算网络中得到光流。
步骤S102,等间隔获取视频中的采样帧,将获得的采样帧与步骤S101得到的光流一起输入预训练的双流动作识别网络提取视频外观和运动特征。
在本发明具体实施例中,按每16帧采样一帧的规则获取视频中的采样帧,将采样帧与步骤S101得到的光流一起输入预训练的双流动作识别网络提取视频外观和运动特征,本发明参考了J.Carreira等人的研究工作“Quo Vadis,Action Recognition?A New Modeland the Kinetics Dataset”(In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,pages 4724-4733,2017),使用膨胀三维卷积网络I3D提取通道数为2048的视频特征。
步骤S2,将提取的视频特征通过循环神经网络进行语义一致性建模,获得特征的嵌入表示。
在本发明具体实施例中,所述循环神经网络采取了长短期记忆网络,于每次循环中接收上一次循环的网络隐含状态以及更新的视频特征,进行特征语义一致性建模。在第一次循环时,由于长短期记忆网络不存在上一次循环的网络隐含状态,仅接收原始视频特征用于建模特征语义一致性,形成通道数为512的嵌入特征。
步骤S3,训练分类模块将步骤S2获得的嵌入特征映射到类激活序列。
具体地,分类模块采取了一个全连接层(FC)将根据步骤S2得到的嵌入特征映射到隐含层,于修正线性单元ReLU激活后使用随机失活层(Dropout)防止过拟合,最后使用一个全连接层(FC)将隐含特征映射到动作类别空间,产生类激活序列,如图3(a)所示,其中两个全连接层分别具有512、C个输出通道,C代表动作类别的总数目。嵌入特征记为h,隐含层特征记为H,得到的类激活序列记为S,该分类模块的数学表达如下所示:
H=ReLU(FC(h))
S=FC(Dropout(H))
其中,h和H都是尺寸为T×D的张量,S是尺寸为T×C的张量,T、D和C分别代表视频的采样帧数、特征通道数和动作类别总数。
步骤S4,采用基于嵌入特征的注意力模块得到视频时间维度的注意力分布,使用该分布更新视频特征。
具体地,注意力模块采取了双层感知机(即如图3(b),包括两个全连接层FC和修正线性单元ReLU,以及softmax)利用步骤S2得到的嵌入特征h预测视频时间维度上的注意力分布A,计算注意力分布的反相M用于更新原始视频特征F,如图3(b)所示。本发明中,所述注意力模块的数学表达如下所示:
A=Softmax(FC2(ReLU(FC1(h))))
M=1.-A
其中表示广播相乘。FC1和FC2为全连接层,其输出通道数分别为512和1。1.是大小与张量A相同的元素全为1的矩阵。所述注意力模块首先通过嵌入特征h得到在视频时间维度的注意力分布A,通过计算注意力反相M来更新视频特征F,抑制高注意力片段的特征且较多保留低注意力片段的特征,使后续动作定位过程关注低注意力片段,有效捕捉更具完整性的动作。
步骤S5,将步骤S4中更新的视频特征作为下一次循环的输入,重复步骤S2-S4的训练过程,直到符合停止条件。具体地,每一循环交替进行步骤S2建模语义一致性、S3生成类激活序列、S4更新视频特征,直到满足设定的停止条件时停止训练。
步骤S6,将每次循环产生的类激活序列进行融合,进而解析生成时序动作定位结果和估计的动作类别,计算估计的动作类别与真实类别标签的分类损失。
具体地,将步骤S5中每次循环产生的类激活序列沿循环维度进行张量拼接,应用平均池化操作得到融合的类激活序列,对融合的类激活序列执行阈值操作和Softmax操作分别得到动作实例的时序定位结果和视频级别的估计类别,将估计的动作类别与真实的类别标签计算交叉熵作为分类损失。
步骤S7,将每次循环的嵌入特征进行融合,计算视频动作特征间的相似性损失。
具体地,将步骤S5中每次循环的嵌入特征沿循环维度进行张量拼接,应用平均池化操作得到融合的嵌入特征,本发明参考了S.Paul等人的研究工作“WTALC:Weakly-supervised Temporal Activity Localization and Classification”(In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition,pages 4724-4733,2017)使用视频特征向量余弦相似性的铰链损失作为动作的相似性损失。
步骤S8,将分类损失及相似性损失按权相加,得到目标损失,更新模型参数。
具体地,本发明中,取分类损失及相似性损失的权重均为0.5,按权相加后得到目标损失,然后采用随机梯度下降算法更新模型参数。
图4为本发明一种基于深度学习的弱监督视频时序动作定位系统的系统架构图。如图4所示,本发明一种基于深度学习的弱监督视频时序动作定位系统,包括:
特征提取单元401,用于提取视频中当前帧以及其前一帧,通过光流估计算法提取光流,并连同等间隔采样的帧输入预训练的双流动作识别网络,提取视频外观和运动特征,输入至语义一致性建模单元。
具体地,特征提取单元401获取视频中当前帧以及其前一帧,将当前帧与前一帧合并在一起,通过光流估计算法提取光流,为了得到高质量的光流估算结果,采用了C.Zach等人的研究工作“A Duality Based Approach for Realtime TV-L1 Optical Flow”(InProceedings of the 29th DAGM Symposium on Pattern Recognition,pages 214-223,2007),使用TV-L1作为光流估算网络。对于视频中的第一帧而言,它没有前一帧,特征提取单元401将它自身看作是前一帧,然后将第一帧与其自身合并一起,输入到TV-L1中得到光流,得到光流后,与等间隔采样的视频帧一起输入预训练的双流动作识别网络提取视频外观和运动特征,本发明参考了J.Carreira等人的研究工作“Quo Vadis,ActionRecognition?A New Model and the Kinetics Dataset”(In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,pages 4724-4733,2017),特征提取单元401使用膨胀三维卷积网络提取视频特征。
语义一致性建模单元402,用于将提取的视频特征通过循环神经网络进行语义一致性建模,获得特征的嵌入表示。
具体地,语义一致性建模单元402采用长短期记忆网络,于每次循环中接收上一次循环的网络隐含状态以及更新的视频特征,进行特征语义一致性建模。于第一次循环时,长短期记忆网络不存在上一次循环的网络隐含状态,仅接收原始视频特征用于建模特征语义一致性,形成通道数为512的嵌入特征。
类激活序列生成单元403,用于训练分类模块将嵌入特征映射到类激活序列。具体地,类激活序列生成单元403采取了一个全连接层将语义一致性建模单元402得到的嵌入特征映射到隐含层,于修正线性单元ReLU激活后使用随机失活层防止过拟合,最后使用一个全连接层将隐含特征映射到动作类别空间,产生类激活序列。
特征更新单元404,用于采用基于嵌入特征的注意力模块得到视频时间维度的注意力分布,使用该分布更新视频特征。具体地,注意力模块采取了双层感知机利用语义一致性建模单元402得到的嵌入特征预测视频时间维度上的注意力分布,计算注意力分布的反相用于更新原始视频特征,抑制高注意力片段的特征且较多保留低注意力片段的特征,使后续动作定位过程关注低注意力片段,有效捕捉更具完整性的动作。
循环训练单元405,用于将特征更新单元404中更新的视频特征作为下一次循环的输入,重复执行语义一致性建模单元402、类激活序列生成单元403、特征更新单元404的训练过程,直到符合停止条件。具体地,每一循环交替执行语义一致性建模单元402、类激活序列生成单元403和特征更新单元404,直到满足设定的停止条件时停止训练。
分类损失计算单元406,用于将每次循环产生的类激活序列进行融合,进而解析生成时序动作定位结果和估计的动作类别,计算估计的动作类别与真实类别标签的分类损失。具体地,将循环训练单元405中每次循环产生的类激活序列沿循环维度进行张量拼接,应用平均池化操作得到融合的类激活序列,对融合的类激活序列执行阈值操作和Softmax操作分别得到动作实例的时序定位结果和视频级别的估计类别,将估计的动作类别与真实的类别标签计算交叉熵作为分类损失。
相似性损失计算单元407,用于将每次循环的嵌入特征进行融合,计算视频动作特征间的相似性损失。具体地,将循环训练单元405中每次循环的嵌入特征沿循环维度进行张量拼接,应用平均池化操作得到融合的嵌入特征,本发明参考了S.Paul等人的研究工作“WTALC:Weakly-supervised Temporal Activity Localization and Classification”(In Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,pages 4724-4733,2017)使用视频特征向量余弦相似性的铰链损失作为动作的相似性损失。
权重更新单元408,用于将获得的分类损失及相似性损失按权相加,得到目标损失,更新模型参数。具体地,权重更新单元408取分类损失及相似性损失的权重均为0.5,按权相加后得到目标损失,然后采用随机梯度下降算法更新模型参数。
综上所述,本发明一种基于深度学习的弱监督视频时序动作定位方法及系统通过光流估计算法提取光流,并连同等间隔采样的帧输入双流动作识别网络提取视频外观和运动特征,采用循环神经网络建模特征语义一致性生成特征的嵌入表示,采用基于嵌入特征的分类模块和注意力模块分别生成类激活序列和更新视频特征,多次循环地进行训练过程直到符合停止条件,融合每次循环生成的类激活序列和动作特征,解析生成动作定位结果和估计的动作类别,计算估计类别与真实类别的分类损失并计算视频间特征相似性损失,更新系统的模型参数,实现了有效利用动作语义一致性来逐步精准检测出视频中的动作实例的目的,本发明针对已有弱监督视频时序动作定位方法仅关注最具判别力的视频片段导致动作定位不完整或是漏检的缺陷,提出了基于语义一致性嵌入特征的注意力模块来建模动作定位过程的语义一致性,并设计出了循环更新的训练策略,充分发挥了模型的性能,最终的效果超过了所有现有的弱监督视频时序动作定位方法。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种基于深度学习的弱监督视频时序动作定位方法,包括如下步骤:
步骤S1,提取视频的当前帧以及其前一帧,利用光流估算网络提取光流,并连同等间隔对视频采样的帧输入预训练的双流动作识别网络,提取视频特征;
步骤S2,将提取的视频特征通过循环神经网络进行语义一致性建模,获得所述视频特征的嵌入表示;
步骤S3,训练分类模块将步骤S2获得的嵌入特征映射到类激活序列;
步骤S4,采用基于嵌入特征的注意力模块根据步骤S2获得的嵌入特征得到视频时间维度的注意力分布,并使用所述注意力分布更新视频特征;
步骤S5,将更新后的视频特征作为下一次循环的输入,重复步骤S2-S4的训练过程,直到符合停止条件;
步骤S6,将每次循环产生的类激活序列进行融合,进而解析生成时序动作定位结果和估计的动作类别,计算估计的动作类别与真实动作类别标签的分类损失;
步骤S7,将每次循环的嵌入特征进行融合,计算视频动作特征间的相似性损失;
步骤S8,将分类损失及相似性损失按权相加,得到目标损失,更新系统的模型参数。
2.如权利要求1所述的一种基于深度学习的弱监督视频时序动作定位方法,其特征在于:于步骤S1中,所述光流估算网络采用TV-L1网络,在处理视频第一帧时,将第一帧与其自身合并一起,输入到所述TV-L1网络中通过TV-L1算法得到光流。
3.如权利要求1所述的一种基于深度学习的弱监督视频时序动作定位方法,其特征在于:于步骤S1中,所述预训练的双流动作识别网络采用膨胀三维卷积网络,以实现视频外观和运动特征的提取。
4.如权利要求1所述的一种基于深度学习的弱监督视频时序动作定位方法,其特征在于:于步骤S2中,所述循环神经网络采用长短期记忆网络,于每次循环中接收上一次循环的网络隐含状态以及更新的视频特征,进行特征语义一致性建模。
5.如权利要求4所述的一种基于深度学习的弱监督视频时序动作定位方法,其特征在于:于步骤S2中,在第一次循环时,所述长短期记忆网络仅接收原始视频特征用于建模特征语义一致性。
6.如权利要求1所述的一种基于深度学习的弱监督视频时序动作定位方法,其特征在于:于步骤S3中,所述分类模块采用一个全连接层将嵌入特征映射到隐含层,并采用修正线性单元ReLU激活后使用随机失活层防止过拟合,最后使用一个全连接层将隐含特征映射到动作类别空间,以产生所述类激活序列。
7.如权利要求1所述的一种基于深度学习的弱监督视频时序动作定位方法,其特征在于:于步骤S4中,所述基于嵌入特征的注意力模块采用双层感知机根据步骤S2得到的嵌入特征预测所述视频特征在时间维度上的注意力分布,并通过计算注意力分布的反相用于更新原始视频特征。
8.如权利要求1所述的一种基于深度学习的弱监督视频时序动作定位方法,其特征在于:于步骤S6中,将步骤S5中每次循环产生的类激活序列沿循环维度进行张量拼接,应用平均池化操作得到融合的类激活序列,并对融合的类激活序列执行阈值操作和Softmax操作分别得到动作实例的时序定位结果和视频级别的估计类别,将估计的动作类别与真实的动作类别标签计算交叉熵作为分类损失。
9.如权利要求1所述的一种基于深度学习的弱监督视频时序动作定位方法,其特征在于:于步骤S7中,将步骤S5中每次循环的嵌入特征沿循环维度进行张量拼接,应用平均池化操作得到融合的嵌入特征,使用视频特征向量余弦相似性的铰链损失作为动作的相似性损失。
10.一种基于深度学习的弱监督视频时序动作定位系统,包括:
特征提取单元,用于提取视频的当前帧以及其前一帧,利用光流估算网络提取光流,并连同等间隔对视频采样的帧输入预训练的双流动作识别网络,提取视频特征,输入至语义一致性建模单元;
语义一致性建模单元,用于将提取的视频特征通过循环神经网络进行语义一致性建模,建立当前视频特征与历史动作语义信息的联系,生成所述视频特征的保持语义一致性的嵌入特征,输入至类激活序列单元和特征更新单元;
类激活序列生成单元,用于将嵌入特征进行解析生成视频的类激活序列;
特征更新单元,用于使用嵌入特征生成视频时间维度的注意力分布,并使用所述注意力分布更新视频特征;
循环训练单元,用于多次循环式地对视频特征进行所述语义一致性建模单元、类激活序列生成单元以及特征更新单元的训练过程,直到满足设定的停止条件时停止训练。
分类损失计算单元,用于融合每次循环生成的类激活序列并解析成时序动作定位结果和估计的动作类别,将所述估计的动作类别与真实的动作类别标签计算分类损失;
相似性损失计算单元,用于融合每次循环生成的嵌入特征,计算视频动作特征间的相似性损失;
权重更新单元,用于对分类损失和相似性损失加权求和,得到目标损失,更新系统的模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911296268.3A CN111079646B (zh) | 2019-12-16 | 2019-12-16 | 基于深度学习的弱监督视频时序动作定位的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911296268.3A CN111079646B (zh) | 2019-12-16 | 2019-12-16 | 基于深度学习的弱监督视频时序动作定位的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079646A true CN111079646A (zh) | 2020-04-28 |
CN111079646B CN111079646B (zh) | 2023-06-06 |
Family
ID=70315195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911296268.3A Active CN111079646B (zh) | 2019-12-16 | 2019-12-16 | 基于深度学习的弱监督视频时序动作定位的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079646B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259874A (zh) * | 2020-05-06 | 2020-06-09 | 成都派沃智通科技有限公司 | 一种基于深度学习的校园安全视频监测方法 |
CN111652083A (zh) * | 2020-05-13 | 2020-09-11 | 上海交通大学 | 一种基于自适应采样的弱监督时序动作检测方法及系统 |
CN111783713A (zh) * | 2020-07-09 | 2020-10-16 | 中国科学院自动化研究所 | 基于关系原型网络的弱监督时序行为定位方法及装置 |
CN111782871A (zh) * | 2020-06-18 | 2020-10-16 | 湖南大学 | 基于时空强化学习的跨模态视频时刻定位方法 |
CN111797771A (zh) * | 2020-07-07 | 2020-10-20 | 南京理工大学 | 一种基于迭代学习的弱监督视频行为检测方法及系统 |
CN111914644A (zh) * | 2020-06-30 | 2020-11-10 | 西安交通大学 | 一种基于双模态协同的弱监督时序动作定位方法及系统 |
CN111985333A (zh) * | 2020-07-20 | 2020-11-24 | 中国科学院信息工程研究所 | 一种基于图结构信息交互增强的行为检测方法及电子装置 |
CN112015947A (zh) * | 2020-08-28 | 2020-12-01 | 中山大学 | 一种语言描述引导的视频时序定位方法、系统 |
CN112016682A (zh) * | 2020-08-04 | 2020-12-01 | 杰创智能科技股份有限公司 | 视频表征学习、预训练方法及装置、电子设备、存储介质 |
CN112150442A (zh) * | 2020-09-25 | 2020-12-29 | 帝工(杭州)科技产业有限公司 | 基于深度卷积神经网络及多实例学习的新冠诊断系统 |
CN112528077A (zh) * | 2020-11-10 | 2021-03-19 | 山东大学 | 基于视频嵌入的视频人脸检索方法及系统 |
CN112668475A (zh) * | 2020-12-28 | 2021-04-16 | 苏州科达科技股份有限公司 | 一种人员身份识别方法、装置、设备及可读存储介质 |
CN112818828A (zh) * | 2021-01-27 | 2021-05-18 | 中国科学技术大学 | 基于记忆网络的弱监督时域动作定位方法及系统 |
CN112818829A (zh) * | 2021-01-27 | 2021-05-18 | 中国科学技术大学 | 基于结构网络的弱监督时域动作定位方法及系统 |
CN112861758A (zh) * | 2021-02-24 | 2021-05-28 | 中国矿业大学(北京) | 一种基于弱监督学习视频分割的行为识别方法 |
CN113158723A (zh) * | 2020-12-25 | 2021-07-23 | 神思电子技术股份有限公司 | 一种端到端的视频动作检测定位系统 |
CN113221633A (zh) * | 2021-03-24 | 2021-08-06 | 西安电子科技大学 | 一种基于层次类别模型的弱监督时序行为定位方法 |
CN113283282A (zh) * | 2021-03-10 | 2021-08-20 | 北京工业大学 | 一种基于时域语义特征的弱监督时序动作检测方法 |
CN113379875A (zh) * | 2021-03-22 | 2021-09-10 | 平安科技(深圳)有限公司 | 卡通角色动画的生成方法、装置、设备及存储介质 |
CN113395542A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的视频生成方法、装置、计算机设备及介质 |
CN115690917A (zh) * | 2023-01-04 | 2023-02-03 | 南京云创大数据科技股份有限公司 | 一种基于外观和运动智能关注的行人动作识别方法 |
CN116030538A (zh) * | 2023-03-30 | 2023-04-28 | 中国科学技术大学 | 弱监督动作检测方法、系统、设备及存储介质 |
CN117132841A (zh) * | 2023-10-26 | 2023-11-28 | 之江实验室 | 一种保守渐进的领域自适应图像分类方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409257A (zh) * | 2018-10-11 | 2019-03-01 | 北京大学深圳研究生院 | 一种基于弱监督学习的视频时序动作检测方法 |
CN109919031A (zh) * | 2019-01-31 | 2019-06-21 | 厦门大学 | 一种基于深度神经网络的人体行为识别方法 |
CN110232339A (zh) * | 2019-05-29 | 2019-09-13 | 西安交通大学 | 一种基于对比度的弱监督时序动作定位评价方法及系统 |
CN110516536A (zh) * | 2019-07-12 | 2019-11-29 | 杭州电子科技大学 | 一种基于时序类别激活图互补的弱监督视频行为检测方法 |
-
2019
- 2019-12-16 CN CN201911296268.3A patent/CN111079646B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409257A (zh) * | 2018-10-11 | 2019-03-01 | 北京大学深圳研究生院 | 一种基于弱监督学习的视频时序动作检测方法 |
CN109919031A (zh) * | 2019-01-31 | 2019-06-21 | 厦门大学 | 一种基于深度神经网络的人体行为识别方法 |
CN110232339A (zh) * | 2019-05-29 | 2019-09-13 | 西安交通大学 | 一种基于对比度的弱监督时序动作定位评价方法及系统 |
CN110516536A (zh) * | 2019-07-12 | 2019-11-29 | 杭州电子科技大学 | 一种基于时序类别激活图互补的弱监督视频行为检测方法 |
Non-Patent Citations (1)
Title |
---|
林倞 等: "融合语义知识的深度表达学习及在视觉理解中的应用", 《计算机研究与发展》 * |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259874B (zh) * | 2020-05-06 | 2020-07-28 | 成都派沃智通科技有限公司 | 一种基于深度学习的校园安全视频监测方法 |
CN111259874A (zh) * | 2020-05-06 | 2020-06-09 | 成都派沃智通科技有限公司 | 一种基于深度学习的校园安全视频监测方法 |
CN111652083A (zh) * | 2020-05-13 | 2020-09-11 | 上海交通大学 | 一种基于自适应采样的弱监督时序动作检测方法及系统 |
CN111652083B (zh) * | 2020-05-13 | 2023-04-18 | 上海交通大学 | 一种基于自适应采样的弱监督时序动作检测方法及系统 |
CN111782871A (zh) * | 2020-06-18 | 2020-10-16 | 湖南大学 | 基于时空强化学习的跨模态视频时刻定位方法 |
CN111914644A (zh) * | 2020-06-30 | 2020-11-10 | 西安交通大学 | 一种基于双模态协同的弱监督时序动作定位方法及系统 |
CN111797771B (zh) * | 2020-07-07 | 2022-09-09 | 南京理工大学 | 一种基于迭代学习的弱监督视频行为检测方法及系统 |
CN111797771A (zh) * | 2020-07-07 | 2020-10-20 | 南京理工大学 | 一种基于迭代学习的弱监督视频行为检测方法及系统 |
CN111783713A (zh) * | 2020-07-09 | 2020-10-16 | 中国科学院自动化研究所 | 基于关系原型网络的弱监督时序行为定位方法及装置 |
CN111783713B (zh) * | 2020-07-09 | 2022-12-02 | 中国科学院自动化研究所 | 基于关系原型网络的弱监督时序行为定位方法及装置 |
CN111985333A (zh) * | 2020-07-20 | 2020-11-24 | 中国科学院信息工程研究所 | 一种基于图结构信息交互增强的行为检测方法及电子装置 |
CN111985333B (zh) * | 2020-07-20 | 2023-01-17 | 中国科学院信息工程研究所 | 一种基于图结构信息交互增强的行为检测方法及电子装置 |
CN112016682B (zh) * | 2020-08-04 | 2024-01-26 | 杰创智能科技股份有限公司 | 视频表征学习、预训练方法及装置、电子设备、存储介质 |
CN112016682A (zh) * | 2020-08-04 | 2020-12-01 | 杰创智能科技股份有限公司 | 视频表征学习、预训练方法及装置、电子设备、存储介质 |
CN112015947B (zh) * | 2020-08-28 | 2024-03-15 | 中山大学 | 一种语言描述引导的视频时序定位方法、系统 |
CN112015947A (zh) * | 2020-08-28 | 2020-12-01 | 中山大学 | 一种语言描述引导的视频时序定位方法、系统 |
CN112150442A (zh) * | 2020-09-25 | 2020-12-29 | 帝工(杭州)科技产业有限公司 | 基于深度卷积神经网络及多实例学习的新冠诊断系统 |
CN113395542A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的视频生成方法、装置、计算机设备及介质 |
CN113395542B (zh) * | 2020-10-26 | 2022-11-08 | 腾讯科技(深圳)有限公司 | 基于人工智能的视频生成方法、装置、计算机设备及介质 |
CN112528077A (zh) * | 2020-11-10 | 2021-03-19 | 山东大学 | 基于视频嵌入的视频人脸检索方法及系统 |
CN112528077B (zh) * | 2020-11-10 | 2022-12-16 | 山东大学 | 基于视频嵌入的视频人脸检索方法及系统 |
CN113158723A (zh) * | 2020-12-25 | 2021-07-23 | 神思电子技术股份有限公司 | 一种端到端的视频动作检测定位系统 |
CN113158723B (zh) * | 2020-12-25 | 2022-06-07 | 神思电子技术股份有限公司 | 一种端到端的视频动作检测定位系统 |
CN112668475B (zh) * | 2020-12-28 | 2022-07-15 | 苏州科达科技股份有限公司 | 一种人员身份识别方法、装置、设备及可读存储介质 |
CN112668475A (zh) * | 2020-12-28 | 2021-04-16 | 苏州科达科技股份有限公司 | 一种人员身份识别方法、装置、设备及可读存储介质 |
CN112818829A (zh) * | 2021-01-27 | 2021-05-18 | 中国科学技术大学 | 基于结构网络的弱监督时域动作定位方法及系统 |
CN112818829B (zh) * | 2021-01-27 | 2022-09-09 | 中国科学技术大学 | 基于结构网络的弱监督时域动作定位方法及系统 |
CN112818828A (zh) * | 2021-01-27 | 2021-05-18 | 中国科学技术大学 | 基于记忆网络的弱监督时域动作定位方法及系统 |
CN112818828B (zh) * | 2021-01-27 | 2022-09-09 | 中国科学技术大学 | 基于记忆网络的弱监督时域动作定位方法及系统 |
CN112861758A (zh) * | 2021-02-24 | 2021-05-28 | 中国矿业大学(北京) | 一种基于弱监督学习视频分割的行为识别方法 |
CN112861758B (zh) * | 2021-02-24 | 2021-12-31 | 中国矿业大学(北京) | 一种基于弱监督学习视频分割的行为识别方法 |
CN113283282A (zh) * | 2021-03-10 | 2021-08-20 | 北京工业大学 | 一种基于时域语义特征的弱监督时序动作检测方法 |
CN113283282B (zh) * | 2021-03-10 | 2024-05-28 | 北京工业大学 | 一种基于时域语义特征的弱监督时序动作检测方法 |
CN113379875A (zh) * | 2021-03-22 | 2021-09-10 | 平安科技(深圳)有限公司 | 卡通角色动画的生成方法、装置、设备及存储介质 |
CN113379875B (zh) * | 2021-03-22 | 2023-09-29 | 平安科技(深圳)有限公司 | 卡通角色动画的生成方法、装置、设备及存储介质 |
CN113221633B (zh) * | 2021-03-24 | 2023-09-19 | 西安电子科技大学 | 一种基于层次类别模型的弱监督时序行为定位方法 |
CN113221633A (zh) * | 2021-03-24 | 2021-08-06 | 西安电子科技大学 | 一种基于层次类别模型的弱监督时序行为定位方法 |
CN115690917A (zh) * | 2023-01-04 | 2023-02-03 | 南京云创大数据科技股份有限公司 | 一种基于外观和运动智能关注的行人动作识别方法 |
CN116030538A (zh) * | 2023-03-30 | 2023-04-28 | 中国科学技术大学 | 弱监督动作检测方法、系统、设备及存储介质 |
CN117132841A (zh) * | 2023-10-26 | 2023-11-28 | 之江实验室 | 一种保守渐进的领域自适应图像分类方法和装置 |
CN117132841B (zh) * | 2023-10-26 | 2024-03-29 | 之江实验室 | 一种保守渐进的领域自适应图像分类方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111079646B (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079646A (zh) | 基于深度学习的弱监督视频时序动作定位的方法及系统 | |
Wang et al. | Adaptive fusion for RGB-D salient object detection | |
Wang et al. | RGB-D-based human motion recognition with deep learning: A survey | |
CN108805083B (zh) | 单阶段的视频行为检测方法 | |
CN111914644B (zh) | 一种基于双模态协同的弱监督时序动作定位方法及系统 | |
CN111161315B (zh) | 一种基于图神经网络的多目标跟踪方法和系统 | |
Sheng et al. | Siamese denoising autoencoders for joints trajectories reconstruction and robust gait recognition | |
Ding et al. | Where to prune: Using LSTM to guide data-dependent soft pruning | |
Kollias et al. | On line emotion detection using retrainable deep neural networks | |
CN112801068B (zh) | 一种视频多目标跟踪与分割系统和方法 | |
CN111723667A (zh) | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 | |
CN112668438A (zh) | 红外视频时序行为定位方法、装置、设备及存储介质 | |
Heidari et al. | Progressive spatio-temporal bilinear network with Monte Carlo dropout for landmark-based facial expression recognition with uncertainty estimation | |
CN113569755B (zh) | 基于对偶关系网络的时序动作定位方法、系统、设备及介质 | |
CN113657200A (zh) | 一种基于掩码r-cnn的视频行为动作识别方法及系统 | |
Zhang | [Retracted] Sports Action Recognition Based on Particle Swarm Optimization Neural Networks | |
CN117154256A (zh) | 锂电池的电化学修复方法 | |
Sun et al. | Weak supervised learning based abnormal behavior detection | |
Latha et al. | Human action recognition using deep learning methods (CNN-LSTM) without sensors | |
Lee et al. | Learning to discriminate information for online action detection: Analysis and application | |
CN114120076B (zh) | 基于步态运动估计的跨视角视频步态识别方法 | |
Gammulle et al. | Hierarchical attention network for action segmentation | |
CN112949544A (zh) | 一种基于3d卷积网络的动作时序检测方法 | |
Luo et al. | Graph convolutional neural network for skeleton-based video abnormal behavior detection | |
Parkhi et al. | Review on deep learning based techniques for person re-identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |