CN111914644B - 一种基于双模态协同的弱监督时序动作定位方法及系统 - Google Patents
一种基于双模态协同的弱监督时序动作定位方法及系统 Download PDFInfo
- Publication number
- CN111914644B CN111914644B CN202010614973.XA CN202010614973A CN111914644B CN 111914644 B CN111914644 B CN 111914644B CN 202010614973 A CN202010614973 A CN 202010614973A CN 111914644 B CN111914644 B CN 111914644B
- Authority
- CN
- China
- Prior art keywords
- video
- action
- sequence
- segment
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双模态协同的弱监督时序动作定位方法及系统,所述方法包括以下步骤:对未剪辑视频中的视频片段进行特征提取;基于双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;基于获得的视频片段注意力权重序列,获得伪时序标签;将伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;基于迭代训练获得的两个单模态子网络,对未剪辑视频进行时序动作定位。本发明在只有视频的类别标签下进行训练,可得到视频中所有动作实例开始与结束时间及其类别。
Description
技术领域
本发明属于计算机视觉技术领域,特别涉及一种基于双模态协同的弱监督时序动作定位方法及系统。
背景技术
随着互联网的发展,视频在人们生活中占有越来越重要的作用。时序动作定位是视频理解领域的一项重要技术,它旨在定位未剪辑视频中主要动作的开始与结束时间,并对动作进行正确分类。
目前,现有大部分时序动作定位方法需要精确的时序标注进行训练,即需要每个动作实例的类别及其开始与结束时间;这种精确的时序标注需要耗费大量人力物力,并且可能由于不同标注员进行标注产生偏差。与之相对的,弱监督时序动作定位只需要视频级别的类别标签进行训练,而且这种数据可以轻易地在关键词检索的视频网站中获得。因此,弱监督时序动作定位可以极大地减轻数据标注的压力,是一个更为实际的方法。
目前,弱监督时序动作定位方法有两个缺陷:首先,由于缺少时序标注,弱监督的方法容易产生大量的假阳性动作提议;其次,现有方法使用固定的阈值对激活序列进行划分以产生动作提议,而在训练过程中没有对该阈值进行建模。
综上,亟需一种新的基于双模态协同的弱监督时序动作定位方法及系统。
发明内容
本发明的目的在于提供一种基于双模态协同的弱监督时序动作定位方法及系统,以解决上述存在的一个或多个技术问题。本发明首先使用伪时序标签进行训练以显著降低假阳性率,然后在训练阶段对产生动作提议的阈值进行建模;本发明在只有视频的类别标签下进行训练,可得到视频中所有动作实例开始与结束时间及其类别。
为达到上述目的,本发明采用以下技术方案:
本发明的一种基于双模态协同的弱监督时序动作定位方法,包括以下步骤:
步骤1,未剪辑视频中的视频片段特征提取,包括:将未剪辑视频分为多个不重合视频片段;对每个视频片段的帧进行平均取样,获得每个视频片段的样本帧;使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示;所述片段特征包括:RGB特征和光流特征;
步骤2,搭建双流基础网络;基于所述双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;其中,所述双流基础网络包括:两个结构相同的单模态子网络,分别用于输入RGB特征和光流特征并进行处理;
步骤3,基于步骤2获得的视频片段注意力权重序列,获得伪时序标签;将伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;
步骤4,基于步骤3迭代训练获得的两个单模态子网络,对未剪辑视频进行时序动作定位,包括:在步骤2获得的动作分类结果上进行遍历;其中,对于每一个动作分类,进行的步骤包括:对视频片段注意力权重序列进行阈值划分;将高于阈值的相邻视频片段进行连接,产生动作提议;其中,所述动作提议的置信度分数由分类层对每个片段特征的映射得到。
本发明的进一步改进在于,步骤2中,每个单模态子网络均包括:
时序卷积层,用于输入每个视频片段的片段特征,将片段特征映射到用于分类的特征空间,输出用于分类的片段特征;
注意力预测层,包括:一层卷积层;用于输入时序卷积层输出的用于分类的片段特征,对每个片段特征输出一个注意力权重,用于衡量该视频片段包含动作的可能性;
按照时间顺序,将所有片段特征的注意力权重组成视频片段注意力权重序列;
本发明的进一步改进在于,步骤2中,注意力预测层输出的第i个视频片段的注意力值Ai的表达式为:
Ai=σ(wA·xi+bA);
式中,wA、bA为卷积层的权重的偏置;xi是第i个视频片段的特征;σ(·)是Sigmoid函数。
使用注意力值Ai对用于分类的片段特征加权平均得到视频特征表示xfg的表达式为:
以xfg为输入,训练一层全连接层,得到动作分类结果;
式中,wi和bi为分类卷积层对类别i的权重和偏置,C为所有动作类别数;Wc和bc是分类卷积层对于类别c的权重和偏置。
本发明的进一步改进在于,步骤2中,双流基础网络的损失函数表达式为:
Lbase=Lcls+αLatt;
式中,α为控制Latt相对重要性的超参数;
交叉熵损失函数Lcls表达式为:
式中,yc为真实类别标签;
注意力正则化损失函数的表达式为:
本发明的进一步改进在于,步骤3具体包括:
整个训练过程分为多个改进迭代;
在第n+1个改进迭代中,由从第n个改进迭代产生的伪时序标签提供时序监督;
第n个改进迭代产生的融合注意力权重序列为其中, β∈[0,1];和分别是RGB子网络与光流子网络在第n个改进迭代中产生的注意力权重序列在第i个位置的值;第n+1个改进迭代所使用的伪时序标签由对融合注意力权重序列划分阈值得到,表达式为:
式中,θ是阈值超参数;
使用均方差损失函数让注意力值逼近伪时序标签,表达式为:
第n+1个改进迭代的总损失函数表达式为:
本发明的进一步改进在于,步骤4具体包括:
式中,si,c是时序类别激活si对于动作类别c的激活值;
其中,获得时序类别激活序列的步骤对于RGB子网络与光流子网络分别进行,用sRGB,i和sflow,i分别表示RGB子网络与光流子网络的时序类别激活序列;
对获得的融合注意力权重序列和融合时序类别激活序列进行线性插值,得到时序边界;
对后融合注意力序列以0.5为阈值划分,并连接相邻的片段以得到动作提议(ts,te);
每个动作提议的置信度分数ψ由Outer-Inner-Constrasive置信度的变种得到,表达式为:
式中Te=te-L/4,Ts=ts+L/4,L=te-ts;sfuse,i,c是融合时序类别激活在第i个片段对动作类别c的激活值,Afuse,i是融合注意力权重在第i个片段的激活值。
过滤掉置信度分数低于0的动作提议,得到最终的定位结果。
本发明的一种基于双模态协同的弱监督时序动作定位系统,包括:
特征提取模块,用于未剪辑视频中的视频片段特征提取,包括:将未剪辑视频分为多个不重合视频片段;对每个视频片段的帧进行平均取样,获得每个视频片段的样本帧;使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示;所述片段特征包括:RGB特征和光流特征;
视频片段注意力权重序列和动作分类结果获取模块,用于搭建双流基础网络;基于所述双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;其中,所述双流基础网络包括:两个结构相同的单模态子网络,分别用于输入RGB特征和光流特征并进行处理;基于获得的视频片段注意力权重序列,获得伪时序标签;将伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;
时序动作定位模块,用于基于迭代训练后获得的两个单模态子网络,对未剪辑视频进行时序动作定位,包括:在获得的动作分类结果上进行遍历;其中,对于每一个动作分类,进行的步骤包括:对视频片段注意力权重序列进行阈值划分;将高于阈值的相邻视频片段进行连接,产生动作提议;其中,所述动作提议的置信度分数由分类层对每个片段特征的映射得到。
与现有技术相比,本发明具有以下有益效果:
本发明提出了一种基于双模态协同的弱监督时序动作定位方法,即在只有视频的类别标签下进行训练,以得到视频中所有动作实例开始与结束时间及其类别的方法。具体的,本发明的方法,基于RGB帧的光流两种动作模态的注意力值序列的后融合方法,提出了一种基于双模态协同的伪时序标签,以这种标签向两个子网络提供时序监督,迭代地改进双流基础网络。本发明中,步骤2中使用了一个注意力正则化损失函数,以显式地让注意力值接近二元选择,可提高通过阈值划分产生的动作提议时序边界的准确性。本发明中,步骤3中的伪时序标签可以融合两种模态对相同时序位置的不同激活值,通过迭代优化地方式不断改进双流基础网络,最终达到提高定位准确率及降低动作提议假阳性率的效果。
本发明中,使用两个具有相同结构的神经网络分别对上述RGB特征和光流特征进行动作识别。其中,由于一个视频可能包含背景片段;本发明首先,使用一个注意力模块学习每个视频片段包含动作的可能性;然后,以注意力为权重对所有片段做加权平均,以得到视频动作的表示xfg。
本发明中,使用正则化损失函数的意义是为了最大化前l大的片段注意力的平均值和前l小的片段注意力的平均值,并以此让注意力接近二分类。
本发明中,θ是阈值超参数;设定大的阈值可以降低假阳性率,而设定小的阈值可以提高召回率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于双模态协同的弱监督时序动作定位方法的流程示意框图;
图2是本发明与历史实验结果在THUMOS14测试集上,在IoU 0.3~0.7下的mAP(平均精度均值)对比示意图;
图3是本发明与历史实验结果在ActivityNet验证集上,在IoU 0.5~0.95下的mAP与平均mAP的对比示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
请参阅图1,本发明实施例的一种基于双模态协同的弱监督时序动作定位方法,包括以下步骤:
步骤1,未剪辑视频中的视频片段特征提取,包括:首先,将未剪辑视频分为多个不重合视频片段;然后,对每个视频片段的帧进行平均取样,获得每个视频片段的样本帧;使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示,并作为步骤2的输入;所述片段特征包括:RGB特征和光流特征;
步骤2,搭建双流基础网络,基于所述双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;
其中,所述双流基础网络,包括:两个结构相同的单模态子网络,将RGB特征和光流特征分别放入两个单模态子网络进行处理;其中,每个单模态子网络均包括:
时序卷积层,用于输入每个视频片段的片段特征,把片段特征映射到用于分类的特征空间;输出用于分类的片段特征;
注意力预测层,包括:一层卷积层;用于输入时序卷积层输出的用于分类的片段特征,对每个片段特征输出一个注意力权重Ai,用于衡量第i个视频片段包含动作的可能性;按照时间顺序,将所有片段特征的注意力权重组成视频片段注意力权重序列;
步骤3,基于步骤2获得的视频片段注意力权重序列,获得伪时序标签;其中包括:对双流基础网络训练而得的视频片段注意力权重序列进行加权平均,获得一组伪时序标签;
这组伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;
步骤4,对未剪辑视频进行时序动作定位,包括:对视频片段注意力权重序列进行阈值划分;
将高于阈值的相邻视频片段进行连接,产生动作提议;所述动作提议的置信度分数由分类层对每个片段特征的映射得到。
本发明实施例中,在步骤2中,还包括:使用两个具有相同结构的神经网络分别对上述RGB特征和光流特征进行动作识别。其中,由于一个视频可能包含背景片段;本发明首先,使用一个注意力模块学习每个视频片段包含动作的可能性;然后,以注意力为权重对所有片段做加权平均,以得到视频动作的表示xfg:
使用注意力预测层输出片段的注意力值Ai:
Ai=σ(wA·xi+bA);
其中,wA和bA为该卷积层的权重的偏置。
然后使用该注意力值对用于分类的片段特征加权平均得到视频特征表示xfg;
式中,xi是第i个片段的特征,Ai为该片段的注意力值。
以xfg为输入,训练一层全连接层以得到最终的分类结果。
其中,wi和bi为分类卷积层对类别i的权重的偏置,C为动作类别数。
此外,在进行分类预测时,使用一个注意力正则化损失函数让注意力值接近二分类:
这个正则化损失函数的意义是为了最大化前l大的片段注意力的平均值和前l小的片段注意力的平均值,并以此让注意力接近二分类。
本发明实施例中,在步骤3中,还包括:
整个训练过程分为多个改进迭代,在第n+1个改进迭代中,由从第n个改进迭代产生的伪时序标签提供时序监督。
其中,θ是阈值超参数。设定大的阈值可以降低假阳性率,而设定小的阈值可以提高召回率。
最后使用均方差损失函数让注意力值逼近伪时序标签:
本发明实施例中,步骤2中使用了一个注意力正则化损失函数,以显式地让注意力值接近二元选择,以此提高通过阈值划分产生的动作提议时序边界的准确性。
本发明实施例中,步骤3中的伪时序标签可以融合两种模态对相同时序位置的不同激活值,并且通过迭代优化地方式不断改进双流基础网络,最终达到提高定位准确率及降低动作提议假阳性率的效果。
请参阅图1,本发明实施例的一种基于双模态协同的弱监督时序动作定位方法,步骤如下:
步骤1:视频片段特征提取。将视频分为多个不重合的15帧RGB及光流片段,使用预训练的卷积神经网络(UntrimmedNet或者I3D网络)分别提取片段特征序列,并将此序列作为视频的表示进行下列步骤。
步骤2:双流基础网络。本发明分别将RGB帧片段特征及光流片段特征送入两个具有相同结构的基础网络。
此网络首先使用一层时序卷积层将输入特征映射为一组新的特征,然后对每个视频片段学习一个注意力权重Ai,以衡量第i个片段包含动作的可能性。然后使用注意力权重对所有片段特征加权平均,得到视频的特征表示xfg,并将其送入一个全连接层以得到视频类别预测
其中,wi和bi为分类卷积层对类别i的权重的偏置,C为动作类别数。
注意力层和分类层使用交叉熵损失函数优化:
式中,yc为真实动作类别标签。
在这一过程中,使用一个注意力正则化损失函数以降低注意力值的模糊性,并强迫注意力值趋向于二分类:
该损失函数的目的是最大化前l个具有最大注意力值的片段的平均注意力值及前l个具有最小注意力值的片段的平均注意力值之差。因此,双流基础网络的损失函数为这两个损失函数的加权和:
Lbase=Lcls+αLatt;
步骤3:伪时序标签。将整个训练过程分为多个改进迭代,在第n+1个改进迭代中,由从第n个改进迭代产生的伪时序标签提供时序监督,以不断优化双流基础网络。
其中,θ是阈值超参数。设定大的阈值可以降低假阳性率,而设定小的阈值可以提高召回率。
最后使用均方差损失函数让两个基础网络的注意力序列逼近伪时序标签:
因此,在第n+1个改进迭代的总损失函数为
步骤4:首先对后融合注意力序列和时序类别激活序列进行线性插值,以得到更精确的时序边界。与后融合注意力序列类似,加权RGB和光流的时序类别激活序列,得到后融合时序类别激活序列其中sfuse,i=βsRGB,i+(1-β)sflow,i。
对后融合注意力序列以0.5为阈值划分,并连接相邻的片段以得到动作提议(ts,te)。每个动作提议的置信度分数ψ由Outer-Inner-Constrasive置信度的变种得到:
式中Te=te-L/4,Ts=ts+L/4,L=te-ts;sfuse,i,c是融合时序类别激活在第i个片段对动作类别c的激活值,AFuse,i是融合注意力权重在第i个片段的激活值。
最终,过滤掉置信度分数低于0的动作提议,得到最终的定位结果。
本发明实施例中,通过实验对比本发明与历史实验数据的改善效果。
参见图2,为本发明与历史实验数据在THUMOS14测试集上的实验结果。可以看到在所有IoU下,本发明所测得mAP都超过了历史实验数据。
参见图3,为本发明与历史实验数据在ActivityNet v1.2验证集上的实验结果。可以看到在3个主要的所有IoU下,以及平均情况下,本发明所测得mAP都超过了历史实验数据。
本发明实施例的一种基于双模态协同的弱监督时序动作定位系统,包括:
特征提取模块,用于未剪辑视频中的视频片段特征提取,包括:将未剪辑视频分为多个不重合视频片段;对每个视频片段的帧进行平均取样,获得每个视频片段的样本帧;使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示;所述片段特征包括:RGB特征和光流特征;
视频片段注意力权重序列和动作分类结果获取模块,用于搭建双流基础网络;基于所述双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;其中,所述双流基础网络包括:两个结构相同的单模态子网络,分别用于输入RGB特征和光流特征并进行处理;基于获得的视频片段注意力权重序列,获得伪时序标签;将伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;
时序动作定位模块,用于基于迭代训练后获得的两个单模态子网络,对未剪辑视频进行时序动作定位,包括:在获得的动作分类结果上进行遍历;其中,对于每一个动作分类,进行的步骤包括:对视频片段注意力权重序列进行阈值划分;将高于阈值的相邻视频片段进行连接,产生动作提议;其中,所述动作提议的置信度分数由分类层对每个片段特征的映射得到。
本发明实施例中,视频片段注意力权重序列和动作分类结果获取模块中的每个单模态子网络均包括:
时序卷积层,用于输入每个视频片段的片段特征,将片段特征映射到用于分类的特征空间,输出用于分类的片段特征;
注意力预测层,包括:一层卷积层;用于输入时序卷积层输出的用于分类的片段特征,对每个片段特征输出一个注意力权重,用于衡量该视频片段包含动作的可能性;
按照时间顺序,将所有片段特征的注意力权重组成视频片段注意力权重序列;
本发明实施例中,视频片段注意力权重序列和动作分类结果获取模块中的注意力预测层输出的第i个视频片段的注意力值Ai的表达式为:
Ai=σ(wA·xi+bA);
式中,wA、bA为卷积层的权重的偏置;xi是第i个视频片段的特征;σ(·)是Sigmoid函数。
使用注意力值Ai对用于分类的片段特征加权平均得到视频特征表示xfg的表达式为:
以xfg为输入,训练一层全连接层,得到动作分类结果;
式中,wi和bi为分类卷积层对类别i的权重和偏置,C为所有动作类别数;Wc和bc是分类卷积层对于类别c的权重和偏置。
本发明实施例中,视频片段注意力权重序列和动作分类结果获取模块中的双流基础网络的损失函数表达式为:
Lbase=Lcls+αLatt;
式中,α为控制Latt相对重要性的超参数;
交叉熵损失函数Lcls表达式为:
式中,yc为真实类别标签;
注意力正则化损失函数的表达式为:
本发明实施例最终,视频片段注意力权重序列和动作分类结果获取模块中,整个训练过程分为多个改进迭代;
在第n+1个改进迭代中,由从第n个改进迭代产生的伪时序标签提供时序监督;
第n个改进迭代产生的融合注意力权重序列为其中, β∈[0,1];和分别是RGB子网络与光流子网络在第n个改进迭代中产生的注意力权重序列在第i个位置的值;第n+1个改进迭代所使用的伪时序标签由对融合注意力权重序列划分阈值得到,表达式为:
式中,θ是阈值超参数;
使用均方差损失函数让注意力值逼近伪时序标签,表达式为:
第n+1个改进迭代的总损失函数表达式为:
本发明实施例中,时序动作定位模块:
式中,si,c是时序类别激活si对于动作类别c的激活值;
其中,获得时序类别激活序列的步骤对于RGB子网络与光流子网络分别进行,用sRGB,i和sflow,i分别表示RGB子网络与光流子网络的时序类别激活序列;
对获得的融合注意力权重序列和融合时序类别激活序列进行线性插值,得到时序边界;
对后融合注意力序列以0.5为阈值划分,并连接相邻的片段以得到动作提议(ts,te);
每个动作提议的置信度分数ψ由Outer-Inner-Constrasive置信度的变种得到,表达式为:
式中Te=te-L/4,Ts=ts+L/4,L=te-ts;sfuse,i,c是融合时序类别激活在第i个片段对动作类别c的激活值,AFuSe,i是融合注意力权重在第i个片段的激活值。
过滤掉置信度分数低于0的动作提议,得到最终的定位结果。
综上所述,本发明公开了一种基于双模态协同的弱监督时序动作定位方法,属于计算机视觉领域。本发明首先利用RGB帧和光流两种不同的动作模态,使用神经网络分别学习不同模态视频片段的类别和相对重要性。然后,根据双模态的传统后融合方法,我们使用后融合后的注意力序列作为伪时序标签重新对单模态子网络重新训练,并迭代这一过程直到最终收敛。这种伪时序标签可以提高子网络的定位性能,并最终提高整体的定位表现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。
Claims (7)
1.一种基于双模态协同的弱监督时序动作定位方法,其特征在于,包括以下步骤:
步骤1,未剪辑视频中的视频片段特征提取,包括:将未剪辑视频分为多个不重合视频片段;对每个视频片段的帧进行平均取样,获得每个视频片段的样本帧;使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示;所述片段特征包括:RGB特征和光流特征;
步骤2,搭建双流基础网络;基于所述双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;其中,所述双流基础网络包括:两个结构相同的单模态子网络,分别用于输入RGB特征和光流特征并进行处理;
步骤3,基于步骤2获得的视频片段注意力权重序列,获得伪时序标签;将伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;
步骤4,基于步骤3迭代训练获得的两个单模态子网络,对未剪辑视频进行时序动作定位,包括:在步骤2获得的动作分类结果上进行遍历;其中,对于每一个动作分类,进行的步骤包括:对视频片段注意力权重序列进行阈值划分;将高于阈值的相邻视频片段进行连接,产生动作提议;其中,所述动作提议的置信度分数由分类层对每个片段特征的映射得到。
2.根据权利要求1所述的一种基于双模态协同的弱监督时序动作定位方法,其特征在于,步骤2中,每个单模态子网络均包括:
时序卷积层,用于输入每个视频片段的片段特征,将片段特征映射到用于分类的特征空间,输出用于分类的片段特征;
注意力预测层,包括:一层卷积层;用于输入时序卷积层输出的用于分类的片段特征,对每个片段特征输出一个注意力权重,用于衡量该视频片段包含动作的可能性;
按照时间顺序,将所有片段特征的注意力权重组成视频片段注意力权重序列;
6.根据权利要求5所述的一种基于双模态协同的弱监督时序动作定位方法,其特征在于,步骤4具体包括:
式中,si,c是时序类别激活si对于动作类别c的激活值;
其中,获得时序类别激活序列的步骤对于RGB子网络与光流子网络分别进行,用sRGB,i和sflow,i分别表示RGB子网络与光流子网络的时序类别激活序列;
对获得的融合注意力权重序列和融合时序类别激活序列进行线性插值,得到时序边界;
对后融合注意力序列以0.5为阈值划分,并连接相邻的片段以得到动作提议(ts,te);
每个动作提议的置信度分数ψ由Outer-Inner-Constrasive置信度的变种得到,表达式为:
式中,Te=te-L/4,Ts=ts+L/4,L=te-ts;sfuse,i,c是融合时序类别激活在第i个片段对动作类别c的激活值,Afuse,i是融合注意力权重在第i个片段的激活值;
过滤掉置信度分数低于0的动作提议,得到最终的定位结果。
7.一种基于双模态协同的弱监督时序动作定位系统,其特征在于,包括:
特征提取模块,用于未剪辑视频中的视频片段特征提取,包括:将未剪辑视频分为多个不重合视频片段;对每个视频片段的帧进行平均取样,获得每个视频片段的样本帧;使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示;所述片段特征包括:RGB特征和光流特征;
视频片段注意力权重序列和动作分类结果获取模块,用于搭建双流基础网络;基于所述双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;其中,所述双流基础网络包括:两个结构相同的单模态子网络,分别用于输入RGB特征和光流特征并进行处理;基于获得的视频片段注意力权重序列,获得伪时序标签;将伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;
时序动作定位模块,用于基于迭代训练后获得的两个单模态子网络,对未剪辑视频进行时序动作定位,包括:在获得的动作分类结果上进行遍历;其中,对于每一个动作分类,进行的步骤包括:对视频片段注意力权重序列进行阈值划分;将高于阈值的相邻视频片段进行连接,产生动作提议;其中,所述动作提议的置信度分数由分类层对每个片段特征的映射得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010614973.XA CN111914644B (zh) | 2020-06-30 | 2020-06-30 | 一种基于双模态协同的弱监督时序动作定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010614973.XA CN111914644B (zh) | 2020-06-30 | 2020-06-30 | 一种基于双模态协同的弱监督时序动作定位方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914644A CN111914644A (zh) | 2020-11-10 |
CN111914644B true CN111914644B (zh) | 2022-12-09 |
Family
ID=73227020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010614973.XA Active CN111914644B (zh) | 2020-06-30 | 2020-06-30 | 一种基于双模态协同的弱监督时序动作定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914644B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112261491B (zh) * | 2020-12-22 | 2021-04-16 | 北京达佳互联信息技术有限公司 | 视频时序标注方法、装置、电子设备及存储介质 |
CN112883817A (zh) * | 2021-01-26 | 2021-06-01 | 咪咕文化科技有限公司 | 动作定位方法、装置、电子设备和存储介质 |
CN112818829B (zh) * | 2021-01-27 | 2022-09-09 | 中国科学技术大学 | 基于结构网络的弱监督时域动作定位方法及系统 |
CN112818828B (zh) * | 2021-01-27 | 2022-09-09 | 中国科学技术大学 | 基于记忆网络的弱监督时域动作定位方法及系统 |
CN112927266B (zh) * | 2021-03-01 | 2022-07-15 | 中国科学技术大学 | 基于不确定性引导训练的弱监督时域动作定位方法及系统 |
CN113095128B (zh) * | 2021-03-01 | 2023-09-19 | 西安电子科技大学 | 基于k最远交叉一致性正则化的半监督时序行为定位方法 |
CN113283282B (zh) * | 2021-03-10 | 2024-05-28 | 北京工业大学 | 一种基于时域语义特征的弱监督时序动作检测方法 |
CN113221633B (zh) * | 2021-03-24 | 2023-09-19 | 西安电子科技大学 | 一种基于层次类别模型的弱监督时序行为定位方法 |
CN113420592B (zh) * | 2021-05-14 | 2022-11-18 | 东南大学 | 一种基于代理度量模型的弱监督视频行为定位方法 |
CN113673557A (zh) * | 2021-07-12 | 2021-11-19 | 浙江大华技术股份有限公司 | 特征处理方法、动作定位方法及相关设备 |
CN113569755B (zh) * | 2021-07-29 | 2023-08-22 | 西安交通大学 | 基于对偶关系网络的时序动作定位方法、系统、设备及介质 |
CN113569757B (zh) * | 2021-07-29 | 2024-04-05 | 西安交通大学 | 一种时序动作定位方法、系统、终端设备及可读存储介质 |
CN113887471B (zh) * | 2021-10-15 | 2023-02-10 | 西安电子科技大学 | 基于特征解耦和交叉对比的视频时序定位方法 |
CN114339355B (zh) * | 2021-12-31 | 2023-02-21 | 思必驰科技股份有限公司 | 事件检测模型训练方法、系统、电子设备和存储介质 |
CN114842402B (zh) * | 2022-05-26 | 2024-05-31 | 重庆大学 | 一种基于对抗学习的弱监督时序行为定位方法 |
CN116030538B (zh) * | 2023-03-30 | 2023-06-16 | 中国科学技术大学 | 弱监督动作检测方法、系统、设备及存储介质 |
CN116612420B (zh) * | 2023-07-20 | 2023-11-28 | 中国科学技术大学 | 弱监督视频时序动作检测方法、系统、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263666B (zh) * | 2019-05-29 | 2021-01-19 | 西安交通大学 | 一种基于非对称多流的动作检测方法 |
CN110348345B (zh) * | 2019-06-28 | 2021-08-13 | 西安交通大学 | 一种基于动作连贯性的弱监督时序动作定位方法 |
CN110516536B (zh) * | 2019-07-12 | 2022-03-18 | 杭州电子科技大学 | 一种基于时序类别激活图互补的弱监督视频行为检测方法 |
CN111079646B (zh) * | 2019-12-16 | 2023-06-06 | 中山大学 | 基于深度学习的弱监督视频时序动作定位的方法及系统 |
-
2020
- 2020-06-30 CN CN202010614973.XA patent/CN111914644B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111914644A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914644B (zh) | 一种基于双模态协同的弱监督时序动作定位方法及系统 | |
CN108171209B (zh) | 一种基于卷积神经网络进行度量学习的人脸年龄估计方法 | |
CN108399428B (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN109671102B (zh) | 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法 | |
EP3767536A1 (en) | Latent code for unsupervised domain adaptation | |
CN111079646A (zh) | 基于深度学习的弱监督视频时序动作定位的方法及系统 | |
CN110262273A (zh) | 一种家居设备控制方法、装置、存储介质及智能家居系统 | |
CN112507039A (zh) | 基于外部知识嵌入的文本理解方法 | |
CN112149721B (zh) | 一种基于主动学习降低标注需求的目标检测方法 | |
US11803971B2 (en) | Generating improved panoptic segmented digital images based on panoptic segmentation neural networks that utilize exemplar unknown object classes | |
CN111653275A (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
US11948078B2 (en) | Joint representation learning from images and text | |
CN115147632A (zh) | 基于密度峰值聚类算法的图像类别自动标注方法及装置 | |
CN115292568B (zh) | 一种基于联合模型的民生新闻事件抽取方法 | |
CN115328782A (zh) | 基于图表示学习和知识蒸馏的半监督软件缺陷预测方法 | |
CN115269870A (zh) | 一种基于知识图谱实现数据中台数据链路故障分类预警的方法 | |
CN114781779A (zh) | 一种无监督能耗异常检测方法、装置及存储介质 | |
CN117669656A (zh) | 基于TCN-Semi PN的直流微电网稳定性实时监测方法及装置 | |
CN116628612A (zh) | 一种无监督异常检测方法、装置、介质及设备 | |
CN107220710B (zh) | 稀缺样本数据集条件下bn模型参数的计算方法 | |
CN112348102B (zh) | 一种基于查询的自底向上视频定位方法和系统 | |
CN117011219A (zh) | 物品质量检测方法、装置、设备、存储介质和程序产品 | |
WO2023273171A1 (zh) | 图像处理方法、装置、设备和存储介质 | |
CN115587297A (zh) | 构建图像识别模型和图像识别的方法、装置、设备及介质 | |
CN114511023B (zh) | 分类模型训练方法以及分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |