CN111797771B - 一种基于迭代学习的弱监督视频行为检测方法及系统 - Google Patents

一种基于迭代学习的弱监督视频行为检测方法及系统 Download PDF

Info

Publication number
CN111797771B
CN111797771B CN202010644474.5A CN202010644474A CN111797771B CN 111797771 B CN111797771 B CN 111797771B CN 202010644474 A CN202010644474 A CN 202010644474A CN 111797771 B CN111797771 B CN 111797771B
Authority
CN
China
Prior art keywords
neural network
network model
video
output
activation sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010644474.5A
Other languages
English (en)
Other versions
CN111797771A (zh
Inventor
宋砚
邹荣
舒祥波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202010644474.5A priority Critical patent/CN111797771B/zh
Priority to PCT/CN2020/115542 priority patent/WO2022007193A1/zh
Priority to US17/425,653 priority patent/US11721130B2/en
Publication of CN111797771A publication Critical patent/CN111797771A/zh
Application granted granted Critical
Publication of CN111797771B publication Critical patent/CN111797771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本发明涉及一种基于迭代学习的弱监督视频行为检测方法及系统,包括:提取包含动作行为的视频的时空特征;构建神经网络模型组;根据视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型;根据视频的真实类别标签、当前神经网络模型输出的时序伪标签、下一个神经网络模型输出的类激活序列和下一个神经网络模型输出的视频特征训练下一个神经网络模型;根据检测精度最高值对应的神经网络模型对待检测视频进行动作检测。本发明中根据当前神经网络模型输出的时序伪标签信息训练下一个神经网络模型,可以使神经网络模型学习出的类激活序列更加精准,从而能够准确的检测出视频中的动作。

Description

一种基于迭代学习的弱监督视频行为检测方法及系统
技术领域
本发明涉及行为检测技术领域,特别是涉及一种基于迭代学习的弱监督视频行为检测方法及系统。
背景技术
近几年来,行为识别在计算机视觉领域已经被广泛研究,其目的是自动分析采集到的视频,从中识别出动作的行为类别,以代替人眼完成动作的分析和判断。视频行为识别广泛应用于各种视频场合,例如智能监控、人机交互、动作分析以及虚拟现实等。行为检测是由行为识别发展而来,行为识别主要针对分割好的动作视频,而行为检测主要针对未分割的动作视频,更适用于现实生活中拍摄的长视频。行为检测的目标就是在一段未分割过的长视频中找出每一个动作的开始时间、结束时间以及识别出动作的类别。由于基于全监督的行为检测需要视频具体的动作时间标注,而人工标注不仅需要花费大量时间还会因人而异。所以,基于弱监督的时序行为检测就可以在只知道视频包含哪些动作的情况下,定位出视频中所有的动作是从第几帧开始到第几帧结束,并识别出这些动作的类别。基于弱监督的时序行为检测相比起单纯的行为识别和基于全监督的时序行为检测在现实中具有更广泛的应用前景和实际价值。
目前,大多数弱监督时序行为检测方法都是基于深度卷积神经网络对视频进行特征提取,利用多示例学习或者注意力机制找到类激活序列中对动作响应高的分数对视频动作分类,同时对动作结构、动作特征或者动作与背景之间的关系构建定位网络去学习更新类激活序列,最后根据类激活序列进行定位。这些方法依然存在一定的问题,没有挖掘类激活序列中潜在包含的定位信息以及语义信息,导致定位准确度偏低。
发明内容
本发明的目的是提供一种基于迭代学习的弱监督视频行为检测方法及系统,能够准确的定位检测出视频中的动作。
为实现上述目的,本发明提供了如下方案:
一种基于迭代学习的弱监督视频行为检测方法,包括:
提取包含动作行为的视频的时空特征;将所述时空特征分为训练集时空特征和测试集时空特征;
构建神经网络模型组,所述神经网络模型组包含至少两个神经网络模型;每个所述神经网络模型的输入均为所述训练集时空特征,每个所述神经网络模型的输出均为所述训练集时空特征在对应所述神经网络模型中的类激活序列、时序伪标签和视频特征;
根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型;所述第一神经网络模型为所述神经网络模型组中的第一个神经网络模型;
根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型;
将所述测试集时空特征输入到各所述神经网络模型中,根据各所述神经网络模型输出的类激活序列分别对所述测试集中对应的每一个测试视频进行动作检测,得到各所述神经网络模型的检测精度;
根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测。
可选的,所述根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型,具体为:
根据所述视频的真实类别标签、所述第一神经网络模型输出的类激活序列和所述第一神经网络模型输出的视频特征计算所述视频的分类损失和所述视频的相似性损失;
根据所述分类损失和所述相似性损失更新所述第一神经网络模型的参数。
可选的,所述根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型,具体为:
根据所述视频的真实类别标签和下一个所述神经网络模型输出的类激活序列计算所述视频的分类损失;
根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的视频特征计算融合特征;
根据所述视频的融合特征和下一个所述神经网络模型输出的类激活序列计算所述视频的相似性损失;
根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的类激活序列计算所述视频的时序损失;
根据所述分类损失、所述相似性损失和所述时序损失更新下一个所述神经网络模型的参数。
可选的,所述提取包含动作行为的视频的时空特征,具体为:根据预训练好的网络模型I3D对包含动作行为的视频提取时空特征。
可选的,所述第一神经网络模型包括一层N个节点的全连接层、线性整流层、随机失活层和一层C个节点的全连接层;其中N为所述训练集时空特征中视频帧切分成片段后每个片段的特征维度,C为训练集中所有视频的类别总数。
可选的,所述根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测,具体为:
提取待检测视频的时空特征;
将所述待检测视频的时空特征输入到所述检测精度最高值对应的所述神经网络模型中,输出类激活序列;
根据所述类激活序列获取所述待检测视频的分类分数;
根据所述分类分数在所述待检测视频中选取包含待检测动作的预测类别;
在所述类激活序列中选取所述预测类别对应的激活序列;
根据所述激活序列选取包含待检测动作的候选动作片段。
一种基于迭代学习的弱监督视频行为检测系统,包括:
时空特征提取模块,用于提取包含动作行为的视频的时空特征;将所述时空特征分为训练集时空特征和测试集时空特征;
神经网络模型组构建模块,用于构建神经网络模型组,所述神经网络模型组包含至少两个神经网络模型;每个所述神经网络模型的输入均为所述训练集时空特征,每个所述神经网络模型的输出均为所述训练集时空特征在对应所述神经网络模型中的类激活序列、时序伪标签和视频特征;
第一训练模块,用于根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型;所述第一神经网络模型为所述神经网络模型组中的第一个神经网络模型;
迭代训练模块,用于根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型;
精度检测模块,用于将所述测试集时空特征输入到各所述神经网络模型中,根据各所述神经网络模型输出的类激活序列分别对所述测试集中对应的每一个测试视频进行动作检测,得到各所述神经网络模型的检测精度;
动作检测模块,用于根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测。
可选的,所述第一训练模块包括:
损失计算单元,用于根据所述视频的真实类别标签、所述第一神经网络模型输出的类激活序列和所述第一神经网络模型输出的视频特征计算所述视频的分类损失和所述视频的相似性损失;
第一更新单元,用于根据所述分类损失和所述相似性损失更新所述第一神经网络模型的参数。
可选的,所述迭代训练模块包括:
分类损失计算单元,用于根据所述视频的真实类别标签和下一个所述神经网络模型输出的类激活序列计算所述视频的分类损失;
融合特征计算单元,用于根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的视频特征计算融合特征;
相似性损失计算单元,用于根据所述视频的融合特征和下一个所述神经网络模型输出的类激活序列计算所述视频的相似性损失;
时序损失计算单元,用于根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的类激活序列计算所述视频的时序损失;
第二更新单元,用于根据所述分类损失、所述相似性损失和所述时序损失更新下一个所述神经网络模型的参数。
可选的,所述动作检测模块包括:
特征提取单元,用于提取待检测视频的时空特征;
类激活序列输出单元,用于将所述待检测视频的时空特征输入到所述检测精度最高值对应的所述神经网络模型中,输出类激活序列;
分类分数获取单元,用于根据所述类激活序列获取所述待检测视频的分类分数;
预测类别选取单元,用于根据所述分类分数在所述待检测视频中选取包含待检测动作的预测类别;
激活序列选取单元,用于在所述类激活序列中选取所述预测类别对应的激活序列;
候选动作片段选取单元,用于根据所述激活序列选取包含待检测动作的候选动作片段。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种基于迭代学习的弱监督视频行为检测方法及系统,包括:提取包含动作行为的视频的时空特征;构建神经网络模型组;根据视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型;根据视频的真实类别标签、当前神经网络模型输出的时序伪标签、下一个神经网络模型输出的类激活序列和下一个神经网络模型输出的视频特征训练下一个神经网络模型;将测试集时空特征输入到各神经网络模型中,根据各神经网络模型输出的类激活序列分别对测试集中对应的每一个测试视频进行动作检测,得到各神经网络模型的检测精度。根据检测精度最高值对应的神经网络模型对待检测视频进行动作检测。本发明中根据当前神经网络模型输出的时序伪标签信息训练下一个神经网络模型,可以使神经网络模型学习出的类激活序列更加精准,从而能够准确的检测出视频中的动作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于迭代学习的弱监督视频行为检测方法的流程图;
图2为本发明实施例提供的基于迭代学习的弱监督视频行为检测方法的过程图;
图3为本发明实施例提供的融合特征获取过程图;
图4为本发明实施例提供的时序伪标签输出过程图;
图5为本发明实施例提供的时序损失计算过程图;
图6为本发明实施例提供的基于迭代学习的弱监督视频行为检测系统的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于迭代学习的弱监督视频行为检测方法及系统,能够准确的定位检测出视频中的动作。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
图1为本发明实施例提供的基于迭代学习的弱监督视频行为检测方法的流程图。图2为本发明实施例提供的基于迭代学习的弱监督视频行为检测方法的过程图。如图1和图2所示,方法包括:
步骤101:提取包含动作行为的视频的时空特征。将所述时空特征分为训练集时空特征和测试集时空特征。在本实施例中,具体为:对于给定的视频v,先抽取视频v的图像帧和光流,然后使用kinetics数据集预训练过的I3D模型对图像帧和光流提取视频的时空特征
Figure GDA0003761766170000071
其中Tv是视频v所有帧切分成的片段数,N是每个片段的特征维度,N=2048。
步骤102:构建神经网络模型组,所述神经网络模型组包含至少两个神经网络模型;每个所述神经网络模型的输入均为所述训练集时空特征,每个所述神经网络模型的输出均为所述训练集时空特征在对应所述神经网络模型中的类激活序列、时序伪标签和视频特征。
步骤103:根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型;所述第一神经网络模型为所述神经网络模型组中的第一个神经网络模型。
在本实施例中,第一神经网络模型包括一层N个节点的全连接层、线性整流层、随机失活层和一层C个节点的全连接层,其中N为训练集时空特征中视频帧切分成片段后每个片段的特征维度,C为训练集中所有视频的类别总数。训练第一神经网络模型过程包括:
步骤1031:根据所述视频的真实类别标签、所述第一神经网络模型输出的类激活序列和所述第一神经网络模型输出的视频特征计算所述视频的分类损失和所述视频的相似性损失。在本实施例中,步骤1031具体包括以下步骤:
步骤10311:将训练集中视频v对应的时空特征Sv输入到一层2048个节点的全连接层、线性整流激活层和随机失活层,得到与检测任务相关的视频特征
Figure GDA0003761766170000072
将视频特征
Figure GDA0003761766170000081
输入到一层C个节点的全连接层得到视频的类激活序列
Figure GDA0003761766170000082
根据视频v的类激活序列
Figure GDA0003761766170000083
对每一个类别c对应的激活序列
Figure GDA0003761766170000084
选取前k个最高的分数做平均,其中
Figure GDA0003761766170000085
得到视频对应的分类分数
Figure GDA0003761766170000086
将分类分数经过softmax函数得到分类概率
Figure GDA0003761766170000087
计算公式如下:
Figure GDA0003761766170000088
其中,C是训练集中所有视频的动作类别总数。
将视频的真实类别标签
Figure GDA0003761766170000089
和分类概率
Figure GDA00037617661700000810
输入到定义好的分类损失中,得到视频的分类损失。计算公式为:
Figure GDA00037617661700000811
其中,Lclass是训练集中所有视频的分类损失,B为批处理数量,
Figure GDA00037617661700000812
步骤10312:根据视频的类激活序列
Figure GDA00037617661700000813
找到视频真实类别j对应的激活序列
Figure GDA00037617661700000814
然后利用softmax函数得到类已知的注意力权重
Figure GDA00037617661700000815
计算公式如下:
Figure GDA00037617661700000816
然后利用注意力权重
Figure GDA00037617661700000817
计算视频特征X中包含动作j的高权重特征区域Hj和不包含动作j的低权重特征区域Lj,计算公式如下:
Figure GDA00037617661700000818
Figure GDA00037617661700000819
对于包含同种动作j的视频对(m,n),利用公式(4)和公式(5)分别计算出视频m的高权重特征值Hj(m)以及低权重特征值Lj(m),视频n的高权重特征值Hj(n)以及低权重特征值Lj(n)。然后根据公式:
Figure GDA0003761766170000091
利用余弦相似度来衡量两个特征值Xj(m)和Xj(n)的相似度。即Hj(m)和Hj(n)之间的相似性DH[m,n],Hj(m)和Lj(n)之间的相似性DL[m,n],Hj(n)和Lj(m)之间的相似性DL[n,m]。根据同种动作的特征向量是相似的,动作与背景特征向量是相异的,利用铰链损失函数拉大动作与背景之间的差异,进而获得视频的相似性损失,具体公式如下:
Figure GDA0003761766170000092
其中,Lsimi是训练集所有视频的相似性损失。Sj是训练集中包含动作j的所有视频集合。
步骤1032:根据所述分类损失和所述相似性损失更新所述第一神经网络模型的参数。具体为:利用总损失L0进行更新第一神经网络模型的参数,其中L0=γLclass+(1-γ)*Lsimi,系数γ=0.5。
步骤104:根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型。
在本实施例中,步骤104具体包括以下步骤:
步骤1041:根据所述视频的真实类别标签和下一个所述神经网络模型输出的类激活序列计算所述视频的分类损失。计算过程同步骤10311。
步骤1042:根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的视频特征计算融合特征。图3为本发明实施例提供的融合特征获取过程图。在本实施例中,步骤1042具体包括以下步骤:
步骤10421:根据当前神经网络模型输出的类激活序列
Figure GDA0003761766170000093
对视频v中的每一个片段t对应的激活序列
Figure GDA0003761766170000101
选取最高分
Figure GDA0003761766170000102
作为片段t属于动作前景的得分。其中r=(1,2,...R)是第r次迭代,R是迭代的总次数。当r=1时,Av,r-1是第一个神经网络模型输出的类激活序列。
把所有片段的动作前景的得分经过softmax函数得到类无关权重
Figure GDA0003761766170000103
其中
Figure GDA0003761766170000104
计算公式如下:
Figure GDA0003761766170000105
步骤10422:选取权重位于前h的片段作为第一动作片段,其中
Figure GDA0003761766170000106
对于第一动作片段中的每一个动作片段计算其与视频中所有片段的特征相似度,计算公式为:
Figure GDA0003761766170000107
其中,xm,xn是当前神经模型输出的视频特征在第m个和第n个片段处的特征。
选择出与第一动作片段中的每一个动作片段时间前后距离为2个片段以内且相似度最高的片段为第二动作片段,把第一动作片段和第二动作片段对应的位置都设为1,其余位置设为0,得到最终的时序伪标签
Figure GDA0003761766170000108
其中若片段t为动作片段,则
Figure GDA0003761766170000109
否则
Figure GDA00037617661700001010
图4为本发明实施例提供的时序伪标签输出过程图。
步骤10423:将当前神经网络模型输出的时序伪标签
Figure GDA00037617661700001011
输入到一层2048个节点的全连接层,得到区分动作和背景区域的语义特征
Figure GDA00037617661700001012
然后把该语义特征和下一个神经网络模型输出的视频特征
Figure GDA00037617661700001013
按一定比例相结合得到视频的融合特征
Figure GDA00037617661700001014
融合公式为:
Figure GDA00037617661700001015
其中d是比例系数,设为0.1。
步骤1043:根据所述视频的融合特征和下一个所述神经网络模型输出的类激活序列计算所述视频的相似性损失。计算过程同步骤10312。(将步骤10312中的视频特征替换为融合特征)。
步骤1044:根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的类激活序列计算所述视频的时序损失。图5为本发明实施例提供的时序损失计算过程图。在本实施例中,具体过程为:
根据下一个神经网络模型输出的类激活序列Av,r得到类无关权重
Figure GDA0003761766170000111
计算过程同步骤10421。然后将当前神经网络模型输出的时序伪标签Gv,r-1和类无关权重
Figure GDA0003761766170000112
做时序损失。计算公式如下:
Figure GDA0003761766170000113
步骤1045:根据所述分类损失、所述相似性损失和所述时序损失更新下一个所述神经网络模型的参数。具体为:
利用总损失Lr进行更新下一个神经网络模型的参数,其中
Figure GDA0003761766170000114
其中
Figure GDA0003761766170000115
是步骤1041中计算的分类损失,
Figure GDA0003761766170000116
是步骤1043中计算的相似性损失,
Figure GDA0003761766170000117
是步骤1044中计算的时序损失。系数γ为0.5,系数β为0.05。
步骤105:将所述测试集时空特征输入到各所述神经网络模型中,根据各所述神经网络模型输出的类激活序列分别对所述测试集中对应的每一个测试视频进行动作检测,得到各所述神经网络模型的检测精度。
步骤106:根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测。具体为:
提取待检测视频的时空特征,将待检测视频的时空特征输入到检测精度最高值对应的神经网络模型中,输出类激活序列,根据类激活序列获取待检测视频的分类分数。根据分类分数在待检测视频中选取包含待检测动作的预测类别,在本实施例中可选取分类分数大于0的类别为预测类别。然后在类激活序列中选取预测类别对应的激活序列。根据对应的激活序列选取包含待检测动作的候选动作片段作为动作检测结果,在本实施例中,可选取激活值大于设定阈值且是两个及以上连续片段作为动作检测结果,其中阈值为max(At)-(max(At)-min(At))*0.5,At为预测动作i对应的激活序列。
实施例2
本发明还提供了一种基于迭代学习的弱监督视频行为检测系统,该系统应用于实施例1的基于迭代学习的弱监督视频行为检测方法。图6为本发明实施例提供的基于迭代学习的弱监督视频行为检测系统的系统框图,如图6所示,本系统包括:
时空特征提取模块201,用于提取包含动作行为的视频的时空特征;将所述时空特征分为训练集时空特征和测试集时空特征。
神经网络模型构建模块202,用于构建神经网络模型组,所述神经网络模型组包含至少两个神经网络模型;每个所述神经网络模型的输入均为所述训练集时空特征,每个所述神经网络模型的输出均为所述训练集时空特征在对应所述神经网络模型中的类激活序列、时序伪标签和视频特征。
第一训练模块203,用于根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型;所述第一神经网络模型为所述神经网络模型组中的第一个神经网络模型。
在本实施例中,第一训练模块203包括:
损失计算单元2031,用于根据所述视频的真实类别标签、所述第一神经网络模型输出的类激活序列和所述第一神经网络输出的视频特征计算所述视频的分类损失和所述视频的相似性损失。
第一更新单元2032,用于根据所述分类损失和所述相似性损失更新所述第一神经网络模型的参数。
迭代训练模块204,用于根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型。
在本实施例中,迭代训练模块204包括:
分类损失计算单元2041,用于根据所述视频的真实类别标签和下一个所述神经网络模型输出的类激活序列计算所述视频的分类损失。
融合特征计算单元2042,用于根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的视频特征计算融合特征。
相似性损失计算单元2043,用于根据所述视频的融合特征和下一个所述神经网络模型输出的类激活序列计算所述视频的相似性损失。
时序损失计算单元2044,用于根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的类激活序列计算所述视频的时序损失;
第二更新单元2045,用于根据所述分类损失、所述相似性损失和所述时序损失更新下一个所述神经网络模型的参数。
精度检测模块205,用于将所述测试集时空特征输入到各所述神经网络模型中,根据各所述神经网络模型输出的类激活序列分别对所述测试集中对应的每一个测试视频进行动作检测,得到各所述神经网络模型的检测精度。
动作检测模块206,用于根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测。
在本实施例中,动作检测模块206包括:
特征提取单元2061,用于提取待检测视频的时空特征。
类激活序列输出单元2062,用于将所述待检测视频的时空特征输入到所述检测精度最高值对应的所述神经网络模型中,输出类激活序列。
分类分数获取单元2063,用于根据所述类激活序列获取所述待检测视频的分类分数。
预测类别选取单元2064,用于根据所述分类分数在所述待检测视频中选取包含待检测动作的预测类别。
激活序列选取单元2065,用于在所述类激活序列中选取所述预测类别对应的激活序列。
候选动作片段选取单元2066,用于根据所述激活序列选取包含待检测动作的候选动作片段。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
(1)本发明中的神经网络模型在训练的时候迭代加入了时序伪标签的监督信息,可以使得学习出的类激活序列更加精准,从而使得定位检测动作更加精准。
(2)本发明中通过将时序伪标签转换成语义特征,并与视频特征相融合,使得视频特征更适用于定位任务,进一步提高了定位精准度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于迭代学习的弱监督视频行为检测方法,其特征在于,包括:
提取包含动作行为的视频的时空特征;将所述时空特征分为训练集时空特征和测试集时空特征;
构建神经网络模型组,所述神经网络模型组包含至少两个神经网络模型;每个所述神经网络模型的输入均为所述训练集时空特征,每个所述神经网络模型的输出均为所述训练集时空特征在对应所述神经网络模型中的类激活序列、时序伪标签和视频特征;
根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型;所述第一神经网络模型为所述神经网络模型组中的第一个神经网络模型;
根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型;
将所述测试集时空特征输入到各所述神经网络模型中,根据各所述神经网络模型输出的类激活序列分别对所述测试集中对应的每一个测试视频进行动作检测,得到各所述神经网络模型的检测精度;
根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测。
2.根据权利要求1所述的检测方法,其特征在于,所述根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型,具体为:
根据所述视频的真实类别标签、所述第一神经网络模型输出的类激活序列和所述第一神经网络模型输出的视频特征计算所述视频的分类损失和所述视频的相似性损失;
根据所述分类损失和所述相似性损失更新所述第一神经网络模型的参数。
3.根据权利要求1所述的检测方法,其特征在于,所述根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型,具体为:
根据所述视频的真实类别标签和下一个所述神经网络模型输出的类激活序列计算所述视频的分类损失;
根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的视频特征计算融合特征;
根据所述视频的融合特征和下一个所述神经网络模型输出的类激活序列计算所述视频的相似性损失;
根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的类激活序列计算所述视频的时序损失;
根据所述分类损失、所述相似性损失和所述时序损失更新下一个所述神经网络模型的参数。
4.根据权利要求1所述的检测方法,其特征在于,所述提取包含动作行为的视频的时空特征,具体为:根据预训练好的网络模型I3D对包含动作行为的视频提取时空特征。
5.根据权利要求1所述的检测方法,其特征在于,所述第一神经网络模型包括一层N个节点的全连接层、线性整流层、随机失活层和一层C个节点的全连接层;其中N为所述训练集时空特征中视频帧切分成片段后每个片段的特征维度,C为训练集中所有视频的类别总数。
6.根据权利要求1所述的检测方法,其特征在于,所述根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测,具体为:
提取待检测视频的时空特征;
将所述待检测视频的时空特征输入到所述检测精度最高值对应的所述神经网络模型中,输出类激活序列;
根据所述类激活序列获取所述待检测视频的分类分数;
根据所述分类分数在所述待检测视频中选取包含待检测动作的预测类别;
在所述类激活序列中选取所述预测类别对应的激活序列;
根据所述激活序列选取包含待检测动作的候选动作片段。
7.一种基于迭代学习的弱监督视频行为检测系统,其特征在于,包括:
时空特征提取模块,用于提取包含动作行为的视频的时空特征;将所述时空特征分为训练集时空特征和测试集时空特征;
神经网络模型组构建模块,用于构建神经网络模型组,所述神经网络模型组包含至少两个神经网络模型;每个所述神经网络模型的输入均为所述训练集时空特征,每个所述神经网络模型的输出均为所述训练集时空特征在对应所述神经网络模型中的类激活序列、时序伪标签和视频特征;
第一训练模块,用于根据所述视频的真实类别标签、第一神经网络模型输出的类激活序列和第一神经网络模型输出的视频特征训练第一神经网络模型;所述第一神经网络模型为所述神经网络模型组中的第一个神经网络模型;
迭代训练模块,用于根据所述视频的真实类别标签、当前所述神经网络模型输出的时序伪标签、下一个所述神经网络模型输出的类激活序列和下一个所述神经网络模型输出的视频特征训练下一个所述神经网络模型;
精度检测模块,用于将所述测试集时空特征输入到各所述神经网络模型中,根据各所述神经网络模型输出的类激活序列分别对所述测试集中对应的每一个测试视频进行动作检测,得到各所述神经网络模型的检测精度;
动作检测模块,用于根据所述检测精度最高值对应的所述神经网络模型对待检测视频进行动作检测。
8.根据权利要求7所述的检测系统,其特征在于,所述第一训练模块包括:
损失计算单元,用于根据所述视频的真实类别标签、所述第一神经网络模型输出的类激活序列和所述第一神经网络模型输出的视频特征计算所述视频的分类损失和所述视频的相似性损失;
第一更新单元,用于根据所述分类损失和所述相似性损失更新所述第一神经网络模型的参数。
9.根据权利要求7所述的检测系统,其特征在于,所述迭代训练模块包括:
分类损失计算单元,用于根据所述视频的真实类别标签和下一个所述神经网络模型输出的类激活序列计算所述视频的分类损失;
融合特征计算单元,用于根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的视频特征计算融合特征;
相似性损失计算单元,用于根据所述视频的融合特征和下一个所述神经网络模型输出的类激活序列计算所述视频的相似性损失;
时序损失计算单元,用于根据当前所述神经网络模型输出的时序伪标签和下一个所述神经网络模型输出的类激活序列计算所述视频的时序损失;
第二更新单元,用于根据所述分类损失、所述相似性损失和所述时序损失更新下一个所述神经网络模型的参数。
10.根据权利要求7所述的检测系统,其特征在于,所述动作检测模块包括:
特征提取单元,用于提取待检测视频的时空特征;
类激活序列输出单元,用于将所述待检测视频的时空特征输入到所述检测精度最高值对应的所述神经网络模型中,输出类激活序列;
分类分数获取单元,用于根据所述类激活序列获取所述待检测视频的分类分数;
预测类别选取单元,用于根据所述分类分数在所述待检测视频中选取包含待检测动作的预测类别;
激活序列选取单元,用于在所述类激活序列中选取所述预测类别对应的激活序列;
候选动作片段选取单元,用于根据所述激活序列选取包含待检测动作的候选动作片段。
CN202010644474.5A 2020-07-07 2020-07-07 一种基于迭代学习的弱监督视频行为检测方法及系统 Active CN111797771B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010644474.5A CN111797771B (zh) 2020-07-07 2020-07-07 一种基于迭代学习的弱监督视频行为检测方法及系统
PCT/CN2020/115542 WO2022007193A1 (zh) 2020-07-07 2020-09-16 一种基于迭代学习的弱监督视频行为检测方法及系统
US17/425,653 US11721130B2 (en) 2020-07-07 2020-09-16 Weakly supervised video activity detection method and system based on iterative learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010644474.5A CN111797771B (zh) 2020-07-07 2020-07-07 一种基于迭代学习的弱监督视频行为检测方法及系统

Publications (2)

Publication Number Publication Date
CN111797771A CN111797771A (zh) 2020-10-20
CN111797771B true CN111797771B (zh) 2022-09-09

Family

ID=72810429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010644474.5A Active CN111797771B (zh) 2020-07-07 2020-07-07 一种基于迭代学习的弱监督视频行为检测方法及系统

Country Status (3)

Country Link
US (1) US11721130B2 (zh)
CN (1) CN111797771B (zh)
WO (1) WO2022007193A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10984246B2 (en) * 2019-03-13 2021-04-20 Google Llc Gating model for video analysis
JP6800453B1 (ja) * 2020-05-07 2020-12-16 株式会社 情報システムエンジニアリング 情報処理装置及び情報処理方法
KR102504321B1 (ko) * 2020-08-25 2023-02-28 한국전자통신연구원 온라인 행동 탐지 장치 및 방법
CN112926492B (zh) * 2021-03-18 2022-08-12 南京理工大学 一种基于单帧监督的时序行为检测方法及系统
CN113420592B (zh) * 2021-05-14 2022-11-18 东南大学 一种基于代理度量模型的弱监督视频行为定位方法
CN115861903B (zh) * 2023-02-16 2023-05-05 合肥工业大学智能制造技术研究院 一种弱监督视频异常检测方法、系统及模型训练方法
CN116030538B (zh) * 2023-03-30 2023-06-16 中国科学技术大学 弱监督动作检测方法、系统、设备及存储介质
CN116612420B (zh) * 2023-07-20 2023-11-28 中国科学技术大学 弱监督视频时序动作检测方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009280109A (ja) * 2008-05-22 2009-12-03 Toyota Industries Corp 車両周辺監視装置
CN110287970A (zh) * 2019-06-25 2019-09-27 电子科技大学 一种基于cam与掩盖的弱监督物体定位方法
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000073996A1 (en) * 1999-05-28 2000-12-07 Glebe Systems Pty Ltd Method and apparatus for tracking a moving object
EP3161791A4 (en) * 2014-06-24 2018-01-03 Sportlogiq Inc. System and method for visual event description and event analysis
US10546197B2 (en) * 2017-09-26 2020-01-28 Ambient AI, Inc. Systems and methods for intelligent and interpretive analysis of video image data using machine learning
WO2019114982A1 (en) * 2017-12-15 2019-06-20 Nokia Technologies Oy Methods and apparatuses for inferencing using a neural network
CN110188654B (zh) * 2019-05-27 2023-04-07 东南大学 一种基于移动未裁剪网络的视频行为识别方法
CN110516536B (zh) * 2019-07-12 2022-03-18 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN111079658B (zh) * 2019-12-19 2023-10-31 北京海国华创云科技有限公司 基于视频的多目标连续行为分析方法、系统、装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009280109A (ja) * 2008-05-22 2009-12-03 Toyota Industries Corp 車両周辺監視装置
CN110287970A (zh) * 2019-06-25 2019-09-27 电子科技大学 一种基于cam与掩盖的弱监督物体定位方法
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统

Also Published As

Publication number Publication date
CN111797771A (zh) 2020-10-20
US11721130B2 (en) 2023-08-08
WO2022007193A1 (zh) 2022-01-13
US20220189209A1 (en) 2022-06-16

Similar Documents

Publication Publication Date Title
CN111797771B (zh) 一种基于迭代学习的弱监督视频行为检测方法及系统
CN109919031B (zh) 一种基于深度神经网络的人体行为识别方法
CN110070074B (zh) 一种构建行人检测模型的方法
CN105608446B (zh) 一种视频流异常事件的检测方法及装置
CN110569843B (zh) 一种矿井目标智能检测与识别方法
CN110807434A (zh) 一种基于人体解析粗细粒度结合的行人重识别系统及方法
CN109255289B (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
CN112861917B (zh) 基于图像属性学习的弱监督目标检测方法
CN110991397B (zh) 一种行进方向确定方法及相关设备
CN103106394A (zh) 一种视频监控中的人体行为识别方法
CN110728216A (zh) 一种基于行人属性自适应学习的无监督行人再识别方法
CN112884742A (zh) 一种基于多算法融合的多目标实时检测、识别及跟踪方法
CN113065460A (zh) 基于多任务级联的猪脸面部表情识别框架的建立方法
KR20190059225A (ko) 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치
CN110458022A (zh) 一种基于域适应的可自主学习目标检测方法
CN113537040A (zh) 一种基于半监督学习的时序行为检测方法及系统
JP2022082493A (ja) ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法
Hammam et al. Real-time multiple spatiotemporal action localization and prediction approach using deep learning
CN110751005B (zh) 融合深度感知特征和核极限学习机的行人检测方法
CN112926522B (zh) 一种基于骨骼姿态与时空图卷积网络的行为识别方法
CN111626197B (zh) 一种基于人体行为识别网络模型的识别方法
CN111985333A (zh) 一种基于图结构信息交互增强的行为检测方法及电子装置
CN111274873A (zh) 一种基于人工特征与深度特征融合的行人重识别方法
CN114218434A (zh) 一种自动标注方法、自动标注装置和计算机可读存储介质
KR101503398B1 (ko) 이동물체 분류장치 및 분류방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant