CN111914644A - 一种基于双模态协同的弱监督时序动作定位方法及系统 - Google Patents

一种基于双模态协同的弱监督时序动作定位方法及系统 Download PDF

Info

Publication number
CN111914644A
CN111914644A CN202010614973.XA CN202010614973A CN111914644A CN 111914644 A CN111914644 A CN 111914644A CN 202010614973 A CN202010614973 A CN 202010614973A CN 111914644 A CN111914644 A CN 111914644A
Authority
CN
China
Prior art keywords
video
sequence
action
segment
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010614973.XA
Other languages
English (en)
Other versions
CN111914644B (zh
Inventor
王乐
翟元浩
郑南宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010614973.XA priority Critical patent/CN111914644B/zh
Publication of CN111914644A publication Critical patent/CN111914644A/zh
Application granted granted Critical
Publication of CN111914644B publication Critical patent/CN111914644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双模态协同的弱监督时序动作定位方法及系统,所述方法包括以下步骤:对未剪辑视频中的视频片段进行特征提取;基于双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;基于获得的视频片段注意力权重序列,获得伪时序标签;将伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;基于迭代训练获得的两个单模态子网络,对未剪辑视频进行时序动作定位。本发明在只有视频的类别标签下进行训练,可得到视频中所有动作实例开始与结束时间及其类别。

Description

一种基于双模态协同的弱监督时序动作定位方法及系统
技术领域
本发明属于计算机视觉技术领域,特别涉及一种基于双模态协同的弱监督时序动作定位方法及系统。
背景技术
随着互联网的发展,视频在人们生活中占有越来越重要的作用。时序动作定位是视频理解领域的一项重要技术,它旨在定位未剪辑视频中主要动作的开始与结束时间,并对动作进行正确分类。
目前,现有大部分时序动作定位方法需要精确的时序标注进行训练,即需要每个动作实例的类别及其开始与结束时间;这种精确的时序标注需要耗费大量人力物力,并且可能由于不同标注员进行标注产生偏差。与之相对的,弱监督时序动作定位只需要视频级别的类别标签进行训练,而且这种数据可以轻易地在关键词检索的视频网站中获得。因此,弱监督时序动作定位可以极大地减轻数据标注的压力,是一个更为实际的方法。
目前,弱监督时序动作定位方法有两个缺陷:首先,由于缺少时序标注,弱监督的方法容易产生大量的假阳性动作提议;其次,现有方法使用固定的阈值对激活序列进行划分以产生动作提议,而在训练过程中没有对该阈值进行建模。
综上,亟需一种新的基于双模态协同的弱监督时序动作定位方法及系统。
发明内容
本发明的目的在于提供一种基于双模态协同的弱监督时序动作定位方法及系统,以解决上述存在的一个或多个技术问题。本发明首先使用伪时序标签进行训练以显著降低假阳性率,然后在训练阶段对产生动作提议的阈值进行建模;本发明在只有视频的类别标签下进行训练,可得到视频中所有动作实例开始与结束时间及其类别。
为达到上述目的,本发明采用以下技术方案:
本发明的一种基于双模态协同的弱监督时序动作定位方法,包括以下步骤:
步骤1,未剪辑视频中的视频片段特征提取,包括:将未剪辑视频分为多个不重合视频片段;对每个视频片段的帧进行平均取样,获得每个视频片段的样本帧;使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示;所述片段特征包括:RGB特征和光流特征;
步骤2,搭建双流基础网络;基于所述双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;其中,所述双流基础网络包括:两个结构相同的单模态子网络,分别用于输入RGB特征和光流特征并进行处理;
步骤3,基于步骤2获得的视频片段注意力权重序列,获得伪时序标签;将伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;
步骤4,基于步骤3迭代训练获得的两个单模态子网络,对未剪辑视频进行时序动作定位,包括:在步骤2获得的动作分类结果上进行遍历;其中,对于每一个动作分类,进行的步骤包括:对视频片段注意力权重序列进行阈值划分;将高于阈值的相邻视频片段进行连接,产生动作提议;其中,所述动作提议的置信度分数由分类层对每个片段特征的映射得到。
本发明的进一步改进在于,步骤2中,每个单模态子网络均包括:
时序卷积层,用于输入每个视频片段的片段特征,将片段特征映射到用于分类的特征空间,输出用于分类的片段特征;
注意力预测层,包括:一层卷积层;用于输入时序卷积层输出的用于分类的片段特征,对每个片段特征输出一个注意力权重,用于衡量该视频片段包含动作的可能性;
按照时间顺序,将所有片段特征的注意力权重组成视频片段注意力权重序列;
分类层,包括:一层卷积层;用于根据注意力预测层输出的注意力权重对所有用于分类的片段特征进行加权平均,得到未剪辑视频的特征表示;将特征表示送入分类层,得到视频类别预测
Figure BDA0002563433150000037
获得动作分类结果。
本发明的进一步改进在于,步骤2中,注意力预测层输出的第i个视频片段的注意力值Ai的表达式为:
Ai=σ(wA·xi+bA);
式中,wA、bA为卷积层的权重的偏置;xi是第i个视频片段的特征;σ(·)是Sigmoid函数。
使用注意力值Ai对用于分类的片段特征加权平均得到视频特征表示xfg的表达式为:
Figure BDA0002563433150000031
以xfg为输入,训练一层全连接层,得到动作分类结果;
分类预测
Figure BDA0002563433150000032
的表达式为:
Figure BDA0002563433150000033
式中,wi和bi为分类卷积层对类别i的权重和偏置,C为所有动作类别数;Wc和bc是分类卷积层对于类别c的权重和偏置。
本发明的进一步改进在于,步骤2中,双流基础网络的损失函数表达式为:
Lbase=Lcls+αLatt
式中,α为控制Latt相对重要性的超参数;
交叉熵损失函数Lcls表达式为:
Figure BDA0002563433150000034
式中,yc为真实类别标签;
注意力正则化损失函数的表达式为:
Figure BDA0002563433150000035
式中,
Figure BDA0002563433150000036
T是视频片段总个数,s是控制片段选择片段的超参数。
本发明的进一步改进在于,步骤3具体包括:
整个训练过程分为多个改进迭代;
在第n+1个改进迭代中,由从第n个改进迭代产生的伪时序标签提供时序监督;
第n个改进迭代产生的融合注意力权重序列为
Figure BDA0002563433150000041
其中,
Figure BDA0002563433150000042
Figure BDA0002563433150000043
β∈[0,1];
Figure BDA0002563433150000044
Figure BDA0002563433150000045
分别是RGB子网络与光流子网络在第n个改进迭代中产生的注意力权重序列在第i个位置的值;第n+1个改进迭代所使用的伪时序标签
Figure BDA0002563433150000046
由对融合注意力权重序列划分阈值得到,表达式为:
Figure BDA0002563433150000047
式中,θ是阈值超参数;
使用均方差损失函数让注意力值逼近伪时序标签,表达式为:
Figure BDA0002563433150000048
第n+1个改进迭代的总损失函数表达式为:
Figure BDA0002563433150000049
本发明的进一步改进在于,步骤4具体包括:
将分类层映射到所有视频片段,获得时序类别激活序列
Figure BDA00025634331500000410
表达式为:
Figure BDA00025634331500000411
式中,si,c是时序类别激活si对于动作类别c的激活值;
其中,获得时序类别激活序列的步骤对于RGB子网络与光流子网络分别进行,用sRGB,i和sflow,i分别表示RGB子网络与光流子网络的时序类别激活序列;
加权RGB子网络与光流子网络的时序类别激活序列,得到融合时序类别激活序列
Figure BDA00025634331500000412
其中,sfuse,i=βsRGB,i+(1-β)sflow,i
对获得的融合注意力权重序列和融合时序类别激活序列进行线性插值,得到时序边界;
对后融合注意力序列以0.5为阈值划分,并连接相邻的片段以得到动作提议(ts,te);
每个动作提议的置信度分数ψ由Outer-Inner-Constrasive置信度的变种得到,表达式为:
Figure BDA0002563433150000051
式中Te=te-L/4,Ts=ts+L/4,L=te-ts;sfuse,i,c是融合时序类别激活在第i个片段对动作类别c的激活值,Afuse,i是融合注意力权重在第i个片段的激活值。
过滤掉置信度分数低于0的动作提议,得到最终的定位结果。
本发明的一种基于双模态协同的弱监督时序动作定位系统,包括:
特征提取模块,用于未剪辑视频中的视频片段特征提取,包括:将未剪辑视频分为多个不重合视频片段;对每个视频片段的帧进行平均取样,获得每个视频片段的样本帧;使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示;所述片段特征包括:RGB特征和光流特征;
视频片段注意力权重序列和动作分类结果获取模块,用于搭建双流基础网络;基于所述双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;其中,所述双流基础网络包括:两个结构相同的单模态子网络,分别用于输入RGB特征和光流特征并进行处理;基于获得的视频片段注意力权重序列,获得伪时序标签;将伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;
时序动作定位模块,用于基于迭代训练后获得的两个单模态子网络,对未剪辑视频进行时序动作定位,包括:在获得的动作分类结果上进行遍历;其中,对于每一个动作分类,进行的步骤包括:对视频片段注意力权重序列进行阈值划分;将高于阈值的相邻视频片段进行连接,产生动作提议;其中,所述动作提议的置信度分数由分类层对每个片段特征的映射得到。
与现有技术相比,本发明具有以下有益效果:
本发明提出了一种基于双模态协同的弱监督时序动作定位方法,即在只有视频的类别标签下进行训练,以得到视频中所有动作实例开始与结束时间及其类别的方法。具体的,本发明的方法,基于RGB帧的光流两种动作模态的注意力值序列的后融合方法,提出了一种基于双模态协同的伪时序标签,以这种标签向两个子网络提供时序监督,迭代地改进双流基础网络。本发明中,步骤2中使用了一个注意力正则化损失函数,以显式地让注意力值接近二元选择,可提高通过阈值划分产生的动作提议时序边界的准确性。本发明中,步骤3中的伪时序标签可以融合两种模态对相同时序位置的不同激活值,通过迭代优化地方式不断改进双流基础网络,最终达到提高定位准确率及降低动作提议假阳性率的效果。
本发明中,使用两个具有相同结构的神经网络分别对上述RGB特征和光流特征进行动作识别。其中,由于一个视频可能包含背景片段;本发明首先,使用一个注意力模块学习每个视频片段包含动作的可能性;然后,以注意力为权重对所有片段做加权平均,以得到视频动作的表示xfg
本发明中,使用正则化损失函数的意义是为了最大化前l大的片段注意力的平均值和前l小的片段注意力的平均值,并以此让注意力接近二分类。
本发明中,θ是阈值超参数;设定大的阈值可以降低假阳性率,而设定小的阈值可以提高召回率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于双模态协同的弱监督时序动作定位方法的流程示意框图;
图2是本发明与历史实验结果在THUMOS14测试集上,在IoU 0.3~0.7下的mAP(平均精度均值)对比示意图;
图3是本发明与历史实验结果在ActivityNet验证集上,在IoU 0.5~0.95下的mAP与平均mAP的对比示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
请参阅图1,本发明实施例的一种基于双模态协同的弱监督时序动作定位方法,包括以下步骤:
步骤1,未剪辑视频中的视频片段特征提取,包括:首先,将未剪辑视频分为多个不重合视频片段;然后,对每个视频片段的帧进行平均取样,获得每个视频片段的样本帧;使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示,并作为步骤2的输入;所述片段特征包括:RGB特征和光流特征;
步骤2,搭建双流基础网络,基于所述双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;
其中,所述双流基础网络,包括:两个结构相同的单模态子网络,将RGB特征和光流特征分别放入两个单模态子网络进行处理;其中,每个单模态子网络均包括:
时序卷积层,用于输入每个视频片段的片段特征,把片段特征映射到用于分类的特征空间;输出用于分类的片段特征;
注意力预测层,包括:一层卷积层;用于输入时序卷积层输出的用于分类的片段特征,对每个片段特征输出一个注意力权重Ai,用于衡量第i个视频片段包含动作的可能性;按照时间顺序,将所有片段特征的注意力权重组成视频片段注意力权重序列;
分类层,包括:一层卷积层;根据注意力预测层输出的注意力权重对所有用于分类的片段特征
Figure BDA0002563433150000081
进行加权平均,得到未剪辑视频的特征表示xfg,将特征表示xfg送入分类层,得到视频类别预测
Figure BDA0002563433150000082
获得动作分类结果;
步骤3,基于步骤2获得的视频片段注意力权重序列,获得伪时序标签;其中包括:对双流基础网络训练而得的视频片段注意力权重序列进行加权平均,获得一组伪时序标签;
这组伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;
步骤4,对未剪辑视频进行时序动作定位,包括:对视频片段注意力权重序列进行阈值划分;
将高于阈值的相邻视频片段进行连接,产生动作提议;所述动作提议的置信度分数由分类层对每个片段特征的映射得到。
本发明实施例中,在步骤2中,还包括:使用两个具有相同结构的神经网络分别对上述RGB特征和光流特征进行动作识别。其中,由于一个视频可能包含背景片段;本发明首先,使用一个注意力模块学习每个视频片段包含动作的可能性;然后,以注意力为权重对所有片段做加权平均,以得到视频动作的表示xfg
使用注意力预测层输出片段的注意力值Ai
Ai=σ(wA·xi+bA);
其中,wA和bA为该卷积层的权重的偏置。
然后使用该注意力值对用于分类的片段特征加权平均得到视频特征表示xfg
Figure BDA0002563433150000083
式中,xi是第i个片段的特征,Ai为该片段的注意力值。
以xfg为输入,训练一层全连接层以得到最终的分类结果。
使用另一个分类层对视频特征进行分类,得到分类预测
Figure BDA0002563433150000091
Figure BDA0002563433150000092
其中,wi和bi为分类卷积层对类别i的权重的偏置,C为动作类别数。
此外,在进行分类预测时,使用一个注意力正则化损失函数让注意力值接近二分类:
Figure BDA0002563433150000093
其中,
Figure BDA0002563433150000094
其中s是一个控制选择片段的超参数。
这个正则化损失函数的意义是为了最大化前l大的片段注意力的平均值和前l小的片段注意力的平均值,并以此让注意力接近二分类。
本发明实施例中,在步骤3中,还包括:
整个训练过程分为多个改进迭代,在第n+1个改进迭代中,由从第n个改进迭代产生的伪时序标签提供时序监督。
设在第n个改进迭代产生的融合注意力序列为
Figure BDA0002563433150000095
其中
Figure BDA0002563433150000096
Figure BDA0002563433150000097
β∈[0,1]。
第n+1个改进迭代所使用的伪时序标签
Figure BDA0002563433150000098
由对融合注意力序列划分阈值而得:
Figure BDA0002563433150000099
其中,θ是阈值超参数。设定大的阈值可以降低假阳性率,而设定小的阈值可以提高召回率。
最后使用均方差损失函数让注意力值逼近伪时序标签:
Figure BDA00025634331500000910
本发明实施例中,步骤2中使用了一个注意力正则化损失函数,以显式地让注意力值接近二元选择,以此提高通过阈值划分产生的动作提议时序边界的准确性。
本发明实施例中,步骤3中的伪时序标签可以融合两种模态对相同时序位置的不同激活值,并且通过迭代优化地方式不断改进双流基础网络,最终达到提高定位准确率及降低动作提议假阳性率的效果。
请参阅图1,本发明实施例的一种基于双模态协同的弱监督时序动作定位方法,步骤如下:
步骤1:视频片段特征提取。将视频分为多个不重合的15帧RGB及光流片段,使用预训练的卷积神经网络(UntrimmedNet或者I3D网络)分别提取片段特征序列,并将此序列作为视频的表示进行下列步骤。
步骤2:双流基础网络。本发明分别将RGB帧片段特征及光流片段特征送入两个具有相同结构的基础网络。
此网络首先使用一层时序卷积层将输入特征映射为一组新的特征,然后对每个视频片段学习一个注意力权重Ai,以衡量第i个片段包含动作的可能性。然后使用注意力权重对所有片段特征
Figure BDA0002563433150000101
加权平均,得到视频的特征表示xfg,并将其送入一个全连接层以得到视频类别预测
Figure BDA0002563433150000102
Figure BDA0002563433150000103
Figure BDA0002563433150000104
其中,wi和bi为分类卷积层对类别i的权重的偏置,C为动作类别数。
注意力层和分类层使用交叉熵损失函数优化:
Figure BDA0002563433150000105
式中,yc为真实动作类别标签。
在这一过程中,使用一个注意力正则化损失函数以降低注意力值的模糊性,并强迫注意力值趋向于二分类:
Figure BDA0002563433150000106
该损失函数的目的是最大化前l个具有最大注意力值的片段的平均注意力值及前l个具有最小注意力值的片段的平均注意力值之差。因此,双流基础网络的损失函数为这两个损失函数的加权和:
Lbase=Lcls+αLatt
此外,将分类层映射到所有片段上,以得到时序类别激活序列
Figure BDA0002563433150000111
Figure BDA0002563433150000112
步骤3:伪时序标签。将整个训练过程分为多个改进迭代,在第n+1个改进迭代中,由从第n个改进迭代产生的伪时序标签提供时序监督,以不断优化双流基础网络。
设在第n个改进迭代产生的融合注意力序列为
Figure BDA0002563433150000113
其中
Figure BDA0002563433150000114
Figure BDA0002563433150000115
β∈[0,1]。
第n+1个改进迭代所使用的伪时序标签
Figure BDA0002563433150000116
由对融合注意力序列划分阈值而得:
Figure BDA0002563433150000117
其中,θ是阈值超参数。设定大的阈值可以降低假阳性率,而设定小的阈值可以提高召回率。
最后使用均方差损失函数让两个基础网络的注意力序列逼近伪时序标签:
Figure BDA0002563433150000118
因此,在第n+1个改进迭代的总损失函数为
Figure BDA0002563433150000119
步骤4:首先对后融合注意力序列和时序类别激活序列进行线性插值,以得到更精确的时序边界。与后融合注意力序列类似,加权RGB和光流的时序类别激活序列,得到后融合时序类别激活序列
Figure BDA00025634331500001110
其中sfuse,i=βsRGB,i+(1-β)sflow,i
对后融合注意力序列以0.5为阈值划分,并连接相邻的片段以得到动作提议(ts,te)。每个动作提议的置信度分数ψ由Outer-Inner-Constrasive置信度的变种得到:
Figure BDA0002563433150000121
式中Te=te-L/4,Ts=ts+L/4,L=te-ts;sfuse,i,c是融合时序类别激活在第i个片段对动作类别c的激活值,AFuse,i是融合注意力权重在第i个片段的激活值。
最终,过滤掉置信度分数低于0的动作提议,得到最终的定位结果。
本发明实施例中,通过实验对比本发明与历史实验数据的改善效果。
参见图2,为本发明与历史实验数据在THUMOS14测试集上的实验结果。可以看到在所有IoU下,本发明所测得mAP都超过了历史实验数据。
参见图3,为本发明与历史实验数据在ActivityNet v1.2验证集上的实验结果。可以看到在3个主要的所有IoU下,以及平均情况下,本发明所测得mAP都超过了历史实验数据。
本发明实施例的一种基于双模态协同的弱监督时序动作定位系统,包括:
特征提取模块,用于未剪辑视频中的视频片段特征提取,包括:将未剪辑视频分为多个不重合视频片段;对每个视频片段的帧进行平均取样,获得每个视频片段的样本帧;使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示;所述片段特征包括:RGB特征和光流特征;
视频片段注意力权重序列和动作分类结果获取模块,用于搭建双流基础网络;基于所述双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;其中,所述双流基础网络包括:两个结构相同的单模态子网络,分别用于输入RGB特征和光流特征并进行处理;基于获得的视频片段注意力权重序列,获得伪时序标签;将伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;
时序动作定位模块,用于基于迭代训练后获得的两个单模态子网络,对未剪辑视频进行时序动作定位,包括:在获得的动作分类结果上进行遍历;其中,对于每一个动作分类,进行的步骤包括:对视频片段注意力权重序列进行阈值划分;将高于阈值的相邻视频片段进行连接,产生动作提议;其中,所述动作提议的置信度分数由分类层对每个片段特征的映射得到。
本发明实施例中,视频片段注意力权重序列和动作分类结果获取模块中的每个单模态子网络均包括:
时序卷积层,用于输入每个视频片段的片段特征,将片段特征映射到用于分类的特征空间,输出用于分类的片段特征;
注意力预测层,包括:一层卷积层;用于输入时序卷积层输出的用于分类的片段特征,对每个片段特征输出一个注意力权重,用于衡量该视频片段包含动作的可能性;
按照时间顺序,将所有片段特征的注意力权重组成视频片段注意力权重序列;
分类层,包括:一层卷积层;用于根据注意力预测层输出的注意力权重对所有用于分类的片段特征进行加权平均,得到未剪辑视频的特征表示;将特征表示送入分类层,得到视频类别预测
Figure BDA0002563433150000134
获得动作分类结果。
本发明实施例中,视频片段注意力权重序列和动作分类结果获取模块中的注意力预测层输出的第i个视频片段的注意力值Ai的表达式为:
Ai=σ(wA·xi+bA);
式中,wA、bA为卷积层的权重的偏置;xi是第i个视频片段的特征;σ(·)是Sigmoid函数。
使用注意力值Ai对用于分类的片段特征加权平均得到视频特征表示xfg的表达式为:
Figure BDA0002563433150000131
以xfg为输入,训练一层全连接层,得到动作分类结果;
分类预测
Figure BDA0002563433150000132
的表达式为:
Figure BDA0002563433150000133
式中,wi和bi为分类卷积层对类别i的权重和偏置,C为所有动作类别数;Wc和bc是分类卷积层对于类别c的权重和偏置。
本发明实施例中,视频片段注意力权重序列和动作分类结果获取模块中的双流基础网络的损失函数表达式为:
Lbase=Lcls+αLatt
式中,α为控制Latt相对重要性的超参数;
交叉熵损失函数Lcls表达式为:
Figure BDA0002563433150000141
式中,yc为真实类别标签;
注意力正则化损失函数的表达式为:
Figure BDA0002563433150000142
式中,
Figure BDA0002563433150000143
T是视频片段总个数,s是控制片段选择片段的超参数。
本发明实施例最终,视频片段注意力权重序列和动作分类结果获取模块中,整个训练过程分为多个改进迭代;
在第n+1个改进迭代中,由从第n个改进迭代产生的伪时序标签提供时序监督;
第n个改进迭代产生的融合注意力权重序列为
Figure BDA0002563433150000144
其中,
Figure BDA0002563433150000145
Figure BDA0002563433150000146
β∈[0,1];
Figure BDA0002563433150000147
Figure BDA0002563433150000148
分别是RGB子网络与光流子网络在第n个改进迭代中产生的注意力权重序列在第i个位置的值;第n+1个改进迭代所使用的伪时序标签
Figure BDA0002563433150000149
由对融合注意力权重序列划分阈值得到,表达式为:
Figure BDA00025634331500001410
式中,θ是阈值超参数;
使用均方差损失函数让注意力值逼近伪时序标签,表达式为:
Figure BDA00025634331500001411
第n+1个改进迭代的总损失函数表达式为:
Figure BDA0002563433150000151
本发明实施例中,时序动作定位模块:
将分类层映射到所有视频片段,获得时序类别激活序列
Figure BDA0002563433150000152
表达式为:
Figure BDA0002563433150000153
式中,si,c是时序类别激活si对于动作类别c的激活值;
其中,获得时序类别激活序列的步骤对于RGB子网络与光流子网络分别进行,用sRGB,i和sflow,i分别表示RGB子网络与光流子网络的时序类别激活序列;
加权RGB子网络与光流子网络的时序类别激活序列,得到融合时序类别激活序列
Figure BDA0002563433150000154
其中,sfuse,i=βsRGB,i+(1-β)sflow,i
对获得的融合注意力权重序列和融合时序类别激活序列进行线性插值,得到时序边界;
对后融合注意力序列以0.5为阈值划分,并连接相邻的片段以得到动作提议(ts,te);
每个动作提议的置信度分数ψ由Outer-Inner-Constrasive置信度的变种得到,表达式为:
Figure BDA0002563433150000155
式中Te=te-L/4,Ts=ts+L/4,L=te-ts;sfuse,i,c是融合时序类别激活在第i个片段对动作类别c的激活值,AFuSe,i是融合注意力权重在第i个片段的激活值。
过滤掉置信度分数低于0的动作提议,得到最终的定位结果。
综上所述,本发明公开了一种基于双模态协同的弱监督时序动作定位方法,属于计算机视觉领域。本发明首先利用RGB帧和光流两种不同的动作模态,使用神经网络分别学习不同模态视频片段的类别和相对重要性。然后,根据双模态的传统后融合方法,我们使用后融合后的注意力序列作为伪时序标签重新对单模态子网络重新训练,并迭代这一过程直到最终收敛。这种伪时序标签可以提高子网络的定位性能,并最终提高整体的定位表现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (7)

1.一种基于双模态协同的弱监督时序动作定位方法,其特征在于,包括以下步骤:
步骤1,未剪辑视频中的视频片段特征提取,包括:将未剪辑视频分为多个不重合视频片段;对每个视频片段的帧进行平均取样,获得每个视频片段的样本帧;使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示;所述片段特征包括:RGB特征和光流特征;
步骤2,搭建双流基础网络;基于所述双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;其中,所述双流基础网络包括:两个结构相同的单模态子网络,分别用于输入RGB特征和光流特征并进行处理;
步骤3,基于步骤2获得的视频片段注意力权重序列,获得伪时序标签;将伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;
步骤4,基于步骤3迭代训练获得的两个单模态子网络,对未剪辑视频进行时序动作定位,包括:在步骤2获得的动作分类结果上进行遍历;其中,对于每一个动作分类,进行的步骤包括:对视频片段注意力权重序列进行阈值划分;将高于阈值的相邻视频片段进行连接,产生动作提议;其中,所述动作提议的置信度分数由分类层对每个片段特征的映射得到。
2.根据权利要求1所述的一种基于双模态协同的弱监督时序动作定位方法,其特征在于,步骤2中,每个单模态子网络均包括:
时序卷积层,用于输入每个视频片段的片段特征,将片段特征映射到用于分类的特征空间,输出用于分类的片段特征;
注意力预测层,包括:一层卷积层;用于输入时序卷积层输出的用于分类的片段特征,对每个片段特征输出一个注意力权重,用于衡量该视频片段包含动作的可能性;
按照时间顺序,将所有片段特征的注意力权重组成视频片段注意力权重序列;
分类层,包括:一层卷积层;用于根据注意力预测层输出的注意力权重对所有用于分类的片段特征进行加权平均,得到未剪辑视频的特征表示;将特征表示送入分类层,得到视频类别预测
Figure FDA0002563433140000024
获得动作分类结果。
3.根据权利要求2所述的一种基于双模态协同的弱监督时序动作定位方法,其特征在于,步骤2中,注意力预测层输出的第i个视频片段的注意力值Ai的表达式为:
Ai=σ(wA·xi+bA);
式中,wA、bA为卷积层的权重的偏置;xi是第i个视频片段的特征;σ(·)是Sigmoid函数;
使用注意力值Ai对用于分类的片段特征加权平均得到视频特征表示xfg的表达式为:
Figure FDA0002563433140000021
以xfg为输入,训练一层全连接层,得到动作分类结果;
分类预测
Figure FDA0002563433140000025
的表达式为:
Figure FDA0002563433140000022
式中,wi和bi为分类卷积层对类别i的权重和偏置,C为所有动作类别数;Wc和bc是分类卷积层对于类别c的权重和偏置。
4.根据权利要求3所述的一种基于双模态协同的弱监督时序动作定位方法,其特征在于,步骤2中,双流基础网络的损失函数表达式为:
Lbase=Lcls+αLatt
式中,α为控制Latt相对重要性的超参数;
交叉熵损失函数Lcls表达式为:
Figure FDA0002563433140000023
式中,yc为真实类别标签;
注意力正则化损失函数的表达式为:
Figure FDA0002563433140000031
式中,
Figure FDA0002563433140000032
T是视频片段总个数,s是控制片段选择片段的超参数。
5.根据权利要求4所述的一种基于双模态协同的弱监督时序动作定位方法,其特征在于,步骤3具体包括:
整个训练过程分为多个改进迭代;
在第n+1个改进迭代中,由从第n个改进迭代产生的伪时序标签提供时序监督;
第n个改进迭代产生的融合注意力权重序列为
Figure FDA0002563433140000033
其中,
Figure FDA0002563433140000034
Figure FDA0002563433140000035
β∈[0,1];
Figure FDA0002563433140000036
Figure FDA0002563433140000037
分别是RGB子网络与光流子网络在第n个改进迭代中产生的注意力权重序列在第i个位置的值;第n+1个改进迭代所使用的伪时序标签
Figure FDA0002563433140000038
由对融合注意力权重序列划分阈值得到,表达式为:
Figure FDA0002563433140000039
式中,θ是阈值超参数;
使用均方差损失函数让注意力值逼近伪时序标签,表达式为:
Figure FDA00025634331400000310
第n+1个改进迭代的总损失函数表达式为:
Figure FDA00025634331400000311
6.根据权利要求5所述的一种基于双模态协同的弱监督时序动作定位方法,其特征在于,步骤4具体包括:
将分类层映射到所有视频片段,获得时序类别激活序列
Figure FDA00025634331400000312
表达式为:
Figure FDA00025634331400000313
式中,si,c是时序类别激活si对于动作类别c的激活值;
其中,获得时序类别激活序列的步骤对于RGB子网络与光流子网络分别进行,用sRGB,i和sflow,i分别表示RGB子网络与光流子网络的时序类别激活序列;
加权RGB子网络与光流子网络的时序类别激活序列,得到融合时序类别激活序列
Figure FDA0002563433140000041
其中,sfuse,i=βsRGB,i+(1-β)sflow,i
对获得的融合注意力权重序列和融合时序类别激活序列进行线性插值,得到时序边界;
对后融合注意力序列以0.5为阈值划分,并连接相邻的片段以得到动作提议(ts,te);
每个动作提议的置信度分数ψ由Outer-Inner-Constrasive置信度的变种得到,表达式为:
Figure FDA0002563433140000042
式中,Te=te-L/4,Ts=ts+L/4,L=te-ts;sfuse,i,c是融合时序类别激活在第i个片段对动作类别c的激活值,Afuse,i是融合注意力权重在第i个片段的激活值;
过滤掉置信度分数低于0的动作提议,得到最终的定位结果。
7.一种基于双模态协同的弱监督时序动作定位系统,其特征在于,包括:
特征提取模块,用于未剪辑视频中的视频片段特征提取,包括:将未剪辑视频分为多个不重合视频片段;对每个视频片段的帧进行平均取样,获得每个视频片段的样本帧;使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示;所述片段特征包括:RGB特征和光流特征;
视频片段注意力权重序列和动作分类结果获取模块,用于搭建双流基础网络;基于所述双流基础网络对未剪辑视频进行动作分类,获得视频片段注意力权重序列和动作分类结果;其中,所述双流基础网络包括:两个结构相同的单模态子网络,分别用于输入RGB特征和光流特征并进行处理;基于获得的视频片段注意力权重序列,获得伪时序标签;将伪时序标签作为时序监督,训练两个单模态子网络,迭代直至最终拟合;
时序动作定位模块,用于基于迭代训练后获得的两个单模态子网络,对未剪辑视频进行时序动作定位,包括:在获得的动作分类结果上进行遍历;其中,对于每一个动作分类,进行的步骤包括:对视频片段注意力权重序列进行阈值划分;将高于阈值的相邻视频片段进行连接,产生动作提议;其中,所述动作提议的置信度分数由分类层对每个片段特征的映射得到。
CN202010614973.XA 2020-06-30 2020-06-30 一种基于双模态协同的弱监督时序动作定位方法及系统 Active CN111914644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010614973.XA CN111914644B (zh) 2020-06-30 2020-06-30 一种基于双模态协同的弱监督时序动作定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010614973.XA CN111914644B (zh) 2020-06-30 2020-06-30 一种基于双模态协同的弱监督时序动作定位方法及系统

Publications (2)

Publication Number Publication Date
CN111914644A true CN111914644A (zh) 2020-11-10
CN111914644B CN111914644B (zh) 2022-12-09

Family

ID=73227020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010614973.XA Active CN111914644B (zh) 2020-06-30 2020-06-30 一种基于双模态协同的弱监督时序动作定位方法及系统

Country Status (1)

Country Link
CN (1) CN111914644B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112261491A (zh) * 2020-12-22 2021-01-22 北京达佳互联信息技术有限公司 视频时序标注方法、装置、电子设备及存储介质
CN112818828A (zh) * 2021-01-27 2021-05-18 中国科学技术大学 基于记忆网络的弱监督时域动作定位方法及系统
CN112818829A (zh) * 2021-01-27 2021-05-18 中国科学技术大学 基于结构网络的弱监督时域动作定位方法及系统
CN112883817A (zh) * 2021-01-26 2021-06-01 咪咕文化科技有限公司 动作定位方法、装置、电子设备和存储介质
CN112927266A (zh) * 2021-03-01 2021-06-08 中国科学技术大学 基于不确定性引导训练的弱监督时域动作定位方法及系统
CN113095128A (zh) * 2021-03-01 2021-07-09 西安电子科技大学 基于k最远交叉一致性正则化的半监督时序行为定位方法
CN113221633A (zh) * 2021-03-24 2021-08-06 西安电子科技大学 一种基于层次类别模型的弱监督时序行为定位方法
CN113283282A (zh) * 2021-03-10 2021-08-20 北京工业大学 一种基于时域语义特征的弱监督时序动作检测方法
CN113420592A (zh) * 2021-05-14 2021-09-21 东南大学 一种基于代理度量模型的弱监督视频行为定位方法
CN113569755A (zh) * 2021-07-29 2021-10-29 西安交通大学 基于对偶关系网络的时序动作定位方法、系统、设备及介质
CN113569757A (zh) * 2021-07-29 2021-10-29 西安交通大学 一种时序动作定位方法、系统、终端设备及可读存储介质
CN113673557A (zh) * 2021-07-12 2021-11-19 浙江大华技术股份有限公司 特征处理方法、动作定位方法及相关设备
CN113887471A (zh) * 2021-10-15 2022-01-04 西安电子科技大学 基于特征解耦和交叉对比的视频时序定位方法
CN114339355A (zh) * 2021-12-31 2022-04-12 思必驰科技股份有限公司 事件检测模型训练方法、系统、电子设备和存储介质
CN114842402A (zh) * 2022-05-26 2022-08-02 重庆大学 一种基于对抗学习的弱监督时序行为定位方法
CN116030538A (zh) * 2023-03-30 2023-04-28 中国科学技术大学 弱监督动作检测方法、系统、设备及存储介质
CN116612420A (zh) * 2023-07-20 2023-08-18 中国科学技术大学 弱监督视频时序动作检测方法、系统、设备及存储介质
CN113283282B (zh) * 2021-03-10 2024-05-28 北京工业大学 一种基于时域语义特征的弱监督时序动作检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263666A (zh) * 2019-05-29 2019-09-20 西安交通大学 一种基于非对称多流的动作检测方法
CN110348345A (zh) * 2019-06-28 2019-10-18 西安交通大学 一种基于动作连贯性的弱监督时序动作定位方法
CN110516536A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263666A (zh) * 2019-05-29 2019-09-20 西安交通大学 一种基于非对称多流的动作检测方法
CN110348345A (zh) * 2019-06-28 2019-10-18 西安交通大学 一种基于动作连贯性的弱监督时序动作定位方法
CN110516536A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何晓云等: "基于注意力机制的视频人脸表情识别", 《信息技术》 *
桑海峰等: "基于循环区域关注和视频帧关注的视频行为识别网络设计", 《电子学报》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112261491B (zh) * 2020-12-22 2021-04-16 北京达佳互联信息技术有限公司 视频时序标注方法、装置、电子设备及存储介质
CN112261491A (zh) * 2020-12-22 2021-01-22 北京达佳互联信息技术有限公司 视频时序标注方法、装置、电子设备及存储介质
US11651591B2 (en) 2020-12-22 2023-05-16 Beijing Dajia Internet Information Technology Co., Ltd. Video timing labeling method, electronic device and storage medium
CN112883817A (zh) * 2021-01-26 2021-06-01 咪咕文化科技有限公司 动作定位方法、装置、电子设备和存储介质
CN112818828B (zh) * 2021-01-27 2022-09-09 中国科学技术大学 基于记忆网络的弱监督时域动作定位方法及系统
CN112818828A (zh) * 2021-01-27 2021-05-18 中国科学技术大学 基于记忆网络的弱监督时域动作定位方法及系统
CN112818829A (zh) * 2021-01-27 2021-05-18 中国科学技术大学 基于结构网络的弱监督时域动作定位方法及系统
CN112818829B (zh) * 2021-01-27 2022-09-09 中国科学技术大学 基于结构网络的弱监督时域动作定位方法及系统
CN112927266A (zh) * 2021-03-01 2021-06-08 中国科学技术大学 基于不确定性引导训练的弱监督时域动作定位方法及系统
CN113095128A (zh) * 2021-03-01 2021-07-09 西安电子科技大学 基于k最远交叉一致性正则化的半监督时序行为定位方法
CN113095128B (zh) * 2021-03-01 2023-09-19 西安电子科技大学 基于k最远交叉一致性正则化的半监督时序行为定位方法
CN113283282A (zh) * 2021-03-10 2021-08-20 北京工业大学 一种基于时域语义特征的弱监督时序动作检测方法
CN113283282B (zh) * 2021-03-10 2024-05-28 北京工业大学 一种基于时域语义特征的弱监督时序动作检测方法
CN113221633B (zh) * 2021-03-24 2023-09-19 西安电子科技大学 一种基于层次类别模型的弱监督时序行为定位方法
CN113221633A (zh) * 2021-03-24 2021-08-06 西安电子科技大学 一种基于层次类别模型的弱监督时序行为定位方法
CN113420592A (zh) * 2021-05-14 2021-09-21 东南大学 一种基于代理度量模型的弱监督视频行为定位方法
CN113420592B (zh) * 2021-05-14 2022-11-18 东南大学 一种基于代理度量模型的弱监督视频行为定位方法
CN113673557A (zh) * 2021-07-12 2021-11-19 浙江大华技术股份有限公司 特征处理方法、动作定位方法及相关设备
CN113569755B (zh) * 2021-07-29 2023-08-22 西安交通大学 基于对偶关系网络的时序动作定位方法、系统、设备及介质
CN113569755A (zh) * 2021-07-29 2021-10-29 西安交通大学 基于对偶关系网络的时序动作定位方法、系统、设备及介质
CN113569757A (zh) * 2021-07-29 2021-10-29 西安交通大学 一种时序动作定位方法、系统、终端设备及可读存储介质
CN113569757B (zh) * 2021-07-29 2024-04-05 西安交通大学 一种时序动作定位方法、系统、终端设备及可读存储介质
CN113887471B (zh) * 2021-10-15 2023-02-10 西安电子科技大学 基于特征解耦和交叉对比的视频时序定位方法
CN113887471A (zh) * 2021-10-15 2022-01-04 西安电子科技大学 基于特征解耦和交叉对比的视频时序定位方法
CN114339355B (zh) * 2021-12-31 2023-02-21 思必驰科技股份有限公司 事件检测模型训练方法、系统、电子设备和存储介质
CN114339355A (zh) * 2021-12-31 2022-04-12 思必驰科技股份有限公司 事件检测模型训练方法、系统、电子设备和存储介质
CN114842402A (zh) * 2022-05-26 2022-08-02 重庆大学 一种基于对抗学习的弱监督时序行为定位方法
CN114842402B (zh) * 2022-05-26 2024-05-31 重庆大学 一种基于对抗学习的弱监督时序行为定位方法
CN116030538A (zh) * 2023-03-30 2023-04-28 中国科学技术大学 弱监督动作检测方法、系统、设备及存储介质
CN116030538B (zh) * 2023-03-30 2023-06-16 中国科学技术大学 弱监督动作检测方法、系统、设备及存储介质
CN116612420A (zh) * 2023-07-20 2023-08-18 中国科学技术大学 弱监督视频时序动作检测方法、系统、设备及存储介质
CN116612420B (zh) * 2023-07-20 2023-11-28 中国科学技术大学 弱监督视频时序动作检测方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN111914644B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN111914644B (zh) 一种基于双模态协同的弱监督时序动作定位方法及系统
CN108171209B (zh) 一种基于卷积神经网络进行度量学习的人脸年龄估计方法
CN109671102B (zh) 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法
EP3767536A1 (en) Latent code for unsupervised domain adaptation
CN111079646A (zh) 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111967294A (zh) 一种无监督域自适应的行人重识别方法
CN109165275B (zh) 基于深度学习的智能变电站操作票信息智能搜索匹配方法
CN110135505B (zh) 图像分类方法、装置、计算机设备及计算机可读存储介质
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
WO2023273628A1 (zh) 一种视频循环识别方法、装置、计算机设备及存储介质
CN111653275A (zh) 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法
US20240037750A1 (en) Generating improved panoptic segmented digital images based on panoptic segmentation neural networks that utilize exemplar unknown object classes
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
CN112507778B (zh) 一种基于线特征的改进词袋模型的回环检测方法
CN114925238B (zh) 一种基于联邦学习的视频片段检索方法及系统
CN114781779A (zh) 一种无监督能耗异常检测方法、装置及存储介质
CN115861902B (zh) 无监督的动作迁移和发现方法、系统、设备和介质
CN111783688A (zh) 一种基于卷积神经网络的遥感图像场景分类方法
Liu et al. An anomaly detection method based on double encoder–decoder generative adversarial networks
CN116628612A (zh) 一种无监督异常检测方法、装置、介质及设备
CN107220710B (zh) 稀缺样本数据集条件下bn模型参数的计算方法
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN113033410B (zh) 基于自动数据增强的域泛化行人重识别方法、系统及介质
CN114511023A (zh) 分类模型训练方法以及分类方法
CN114530163A (zh) 基于密度聚类的采用声音识别设备生命周期的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant