CN112927266B - 基于不确定性引导训练的弱监督时域动作定位方法及系统 - Google Patents

基于不确定性引导训练的弱监督时域动作定位方法及系统 Download PDF

Info

Publication number
CN112927266B
CN112927266B CN202110227890.XA CN202110227890A CN112927266B CN 112927266 B CN112927266 B CN 112927266B CN 202110227890 A CN202110227890 A CN 202110227890A CN 112927266 B CN112927266 B CN 112927266B
Authority
CN
China
Prior art keywords
video
features
loss
training
rgb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110227890.XA
Other languages
English (en)
Other versions
CN112927266A (zh
Inventor
张天柱
张勇东
杨文飞
吴枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110227890.XA priority Critical patent/CN112927266B/zh
Publication of CN112927266A publication Critical patent/CN112927266A/zh
Application granted granted Critical
Publication of CN112927266B publication Critical patent/CN112927266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • G06T5/70
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供一种基于不确定性引导训练的弱监督时域动作定位方法,包括:对输入的视频进行特征提取,得到视频特征;对所述视频特征进行处理,得到目标任务适应的RGB特征和光流特征;对所述与目标任务适应的RGB特征和光流特征进行处理,得到对应的注意力权重后加权所述视频特征获得聚合的视频级特征;以及将所述聚合的视频级特征进行处理后得到视频级分类结果,完成动作定位。同时本公开还提供一种基于不确定性引导训练的弱监督时域动作定位系统。

Description

基于不确定性引导训练的弱监督时域动作定位方法及系统
技术领域
本公开涉及人工智能技术领域,关于智能行为分析,尤其涉及一种基于不确定性引导训练的弱监督时域动作定位方法及系统。
背景技术
时域动作定位能够准确找到动作的起始和结束时间,在智能监控、视频描述、视频总结等领域有着广泛的应用。
传统方法通常是基于全监督的,首先利用有动作起始和结束时间标注的数据来训练模型,然后进行动作定位。这一过程严重依赖大量有时域边界标注的数据,非常耗费时间和人力,这限制了动作定位的拓展性和实用性。为了减轻对数据的依赖、提升拓展性和实用性,基于弱监督的智能动作定位算法应运而生,在时域动作定位中取得了较好的结果。在当前方法中,利用注意力机制对前景背景进行分离的方法取得了领先的性能。然而,由于缺乏标注信息去引导注意力权重学习,当前方法难以学习到鲁棒的注意力权重。
由此,如何获得更有效的弱监督时域动作定位方法是一个亟需解决的技术课题。
发明内容
(一)要解决的技术问题
基于上述问题,本公开提供了一种基于不确定性引导训练的弱监督时域动作定位方法及系统,以缓解现有技术中时域动作定位时缺乏标注信息去引导注意力权重学习,当前方法难以学习到鲁棒的注意力权重等技术问题。
(二)技术方案
本公开的一个方面,提供一种基于不确定性引导训练的弱监督时域动作定位方法,包括:对输入的视频进行特征提取,得到视频特征;对所述视频特征进行处理,得到目标任务适应的RGB特征和光流特征;对所述与目标任务适应的RGB特征和光流特征进行处理,得到对应的注意力权重后加权所述视频特征获得聚合的视频级特征;以及将所述聚合的视频级特征进行处理后得到视频级分类结果,完成动作定位。
在本公开实施例中,根据权利要求1所述的基于不确定性引导训练的弱监督时域动作定位方法,所述对输入的视频进行特征提取,得到视频特征,包括:将输入的视频分为多个视频片段;提取每个所述视频片段中的特征;以及将该视频的所有片段的特征拼接在一起,作为该视频的特征。
在本公开实施例中,所述对所述视频特征进行处理,得到目标任务适应的RGB特征和光流特征,包括:根据所述视频特征获取与目标任务适应的RGB特征;以及根据所述视频特征获取与目标任务适应的光流特征。
在本公开实施例中,将所述聚合的视频级特征进行处理后得到视频级分类结果,还包括:根据所述视频级分类结果获取基础损失,并对所述RGB特征和光流特征进行协同训练并得到协同训练模型网络的最终训练损失。
在本公开实施例中,所述根据所述视频级分类结果获取基础损失,包括:根据所述分类结果获得视频级别分类损失;引入注意力权重约束损失;以及基于视频级分类损失和注意力权重约束损失,获得基础损失。
在本公开实施例中,所述根据所述RGB特征和光流特征进行协同训练并得到协同训练模型网络的最终训练损失,包括:将所述RGB特征和光流特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签;以及对所述二值伪标签进行降噪,并获得RGB模型网络和光流模型网络的最终训练损失。
在本公开实施例中,所述将所述RGB特征和光流特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签,包括给定输入XR和XF,将其输入对应的教师网络来产生注意力权重伪标签ΛRT和ΛFT,之后通过一个二值化函数G来将他们转化为二值伪标签:
Figure BDA0002956340650000021
其中,λi为第i个片段的注意力权重。
在本公开实施例中,所述对所述二值伪标签进行降噪,并获得RGB模型网络和光流模型网络的最终训练损失,包括:基于伪标签不确定性,获得噪声鲁棒损失;根据噪声鲁棒损失,获得对应模型网络的伪标签损失;以及将伪标签损失和基础损失结合,得到协同训练网络最终训练损失。
在本公开实施例中,所述训练损失,包括:
Figure BDA0002956340650000031
其中t为当前迭代次数,w(t)为训练中逐渐调整的伪标签损失权重,定义如下:
Figure BDA0002956340650000032
Figure BDA0002956340650000033
为RGB和光流模型网络的基础损失,表达如下:
Figure BDA0002956340650000034
其中,Lcls为视频级别分类损失,表达如下:
Figure BDA0002956340650000035
Latt为注意力权重约束损失,表达为:
Figure BDA0002956340650000036
其中,yi为视频真实类别标签,
Figure BDA0002956340650000037
为视频分类结果,N为视频片段数。
本公开的另一方面,还提供一种基于不确定性引导训练的弱监督时域动作定位系统,用于执行以上任一项所述的基于不确定性引导训练的弱监督时域动作定位方法,所述基于不确定性引导训练的弱监督时域动作定位系统,包括:
基础单元,用于对输入的视频进行处理得到目标任务适应的RGB特征和光流特征,进而得到视频级分类结果并计算基础损失,所述基础单元,包括:
视频特征提取模块,用于对输入的视频进行特征提取,得到视频特征;
卷积层,用于对所述视频特征进行处理,得到目标任务适应的RGB特征和光流特征;
注意力模块,用于对所述与目标任务适应的RGB特征和光流特征进行处理,得到对应的注意力权重后加权所述视频特征获得聚合的视频级特征;以及
分类器,用于将所述聚合的视频级特征进行处理后得到视频级分类结果,并计算基础损失;以及
协同训练单元,用于根据所述RGB特征和光流特征进行协同训练并得到训练损失;所述协同训练单元包括:
RGB模型网络,用于将所述RGB特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签;
光流模型网络,用于将所述光流特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签;
不确定性预测分支,加于所述RGB模型网络和光流模型网络上,用于输出伪标签不确定性并获得噪声鲁棒损失。
基于噪声鲁棒损失,能够得到RGB和光流网络的伪标签损失,与上述基础损失结合后,得到协同训练单元网络最终训练损失。
(三)有益效果
从上述技术方案可以看出,本公开基于不确定性引导训练的弱监督时域动作定位方法及系统至少具有以下有益效果其中之一或其中一部分:
(1)不需要精细的动作起始和结束时间标注,只需要视频级别的类别标签进行训练;
(2)能够显著提升基于注意力权重的方法的性能;
(3)可广泛应用于视频行为检测相关的应用系统中,对视频中的动作进行定位;在实施上,能够以软件形式嵌入到移动设备中,提供实时分析结果;也可以安装在后台服务器中,提供大批量视频处理结果。
附图说明
图1为本公开实施例的基于不确定性引导的弱监督时域动作定位方法的流程示意图。
图2为本公开实施例的基于不确定性引导的弱监督时域动作定位系统的基础单元的架构和原理示意图。
图3为本公开实施例的基于不确定性引导的弱监督时域动作定位系统的系统训练单元的架构和原理示意图。
具体实施方式
本公开提供了一种基于不确定性引导训练的弱监督时域动作定位方法及系统,该方法基于不确定性引导协同训练,能够产生伪标签协同训练RGB和光流网络,实现鲁棒的注意力权重学习。其不需要精细的动作起始和结束时间标注,只需要视频级别的类别标签进行训练;该方法能够显著提升基于注意力权重的方法的性能。
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
在本公开实施例中,提供一种基于不确定性引导训练的弱监督时域动作定位方法,结合图1至图3所示,所述方法,包括:
操作S1:对输入的视频进行特征提取,得到视频特征;
在本公开实施例中,通过视频特征提取模块完成操作S1,上述操作S1中,所述对输入的视频进行特征提取,得到视频特征,包括:
操作S11:将输入的视频分为多个视频片段;
操作S12:提取每个所述视频片段中的特征;以及
操作S13:将该视频的所有片段的特征拼接在一起,作为该视频的特征。
在本公开实施例中,操作S11中,对于一个输入视频V,首先将其分为16帧一组的多个片段。操作S12中使用经过预训练的行为识别网络13D提取每个视频片段的特征;操作S13中,将该视频的所有片段的特征拼接在一起,作为该视频的视频特征。
操作S2:对所述视频特征进行处理,得到目标任务适应的RGB特征和光流特征;
在本公开实施例中,所述对所述视频特征进行处理,得到目标任务适应的RGB特征和光流特征,包括;
操作S21:根据所述视频特征获取与目标任务适应的RGB特征;
在本公开实施例中,所述该视频特征被输入到一个卷积层得到该目标任务适应的RGB特征XR
Figure BDA0002956340650000051
其中,N为视频片段数;
操作S22:根据所述视频特征获取与目标任务适应的光流特征;
在本公开实施例中,先经过类似上述相同的过程,提取视频的光流信息,再得到光流特征XF
Figure BDA0002956340650000061
上述操作S21和S22得到的XR和XF会被输入到后续模块中用于动作定位。
操作S3:对所述与目标任务适应的RGB特征和光流特征进行处理,得到对应的注意力权重后加权所述视频特征获得聚合的视频级特征;
在本公开实施例中,通过基础单元对RGB特征和光流特征各自做单独处理,我们用X来统一表示。我们首先将X输入一个由两个卷积层构成的注意力模块中,产生注意力权重[λ1,λ2,...,λN],然后利用该注意力来加权视频特征得到一个聚合的视频级特征
Figure BDA0002956340650000062
Figure BDA0002956340650000063
其中,λi为第i个视频片段的注意力权重;xi为第i个视频片段的特征。
操作S4:将所述聚合的视频级特征进行处理后得到视频级分类结果,完成动作定位。
在本公开实施例中,该聚合的视频级特征被送入一个由两个全连接层构成的分类器,得到视频级分类结果
Figure BDA0002956340650000064
操作S41,根据所述分类结果获得视频级别分类损失;
基于该分类结果,可以计算视频级别分类损失Lcls
Figure BDA0002956340650000065
操作S43,引入注意力权重约束损失;
在本公开实施例中,除了上述分类损失外,还引入一个注意力权重约束损失Latt,使得注意力权重能够关注到动作相关片段:
Figure BDA0002956340650000071
操作S44,基于视频级分类损失和注意力权重约束损失,获得基础损失;
基于上述两个损失,定义RGB和光流分支的基础损失
Figure BDA0002956340650000072
为:
Figure BDA0002956340650000073
操作S5:根据所述RGB特征和光流特征进行协同训练并得到协同训练模型网络的最终训练损失;
在该协同训练单元中,包括RGB模型M(·|θR)和RGB教师模型M(·|θRT),以及光流模型M(·|θF)和光流教师模型M(·|θFT),分别构成RGB模型网络分支和光流模型网络分支,共同组成协同训练网络。
上述操作S5,包括:
操作S51:将所述RGB特征和光流特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签;
在本公开实施例中,给定输入XR和XF,将其输入对应的教师网络来产生注意力权重伪标签ΛRT和ΛFT,之后通过一个二值化函数G来将他们转化为二值伪标签:
Figure BDA0002956340650000074
操作S52:对所述二值伪标签进行降噪,并获得RGB模型网络和光流模型网络的最终训练损失;
所述操作S52包括:
操作S521:基于伪标签不确定性,获得噪声鲁棒损失;
为了解决伪标签中的噪声问题,在RGB和光流模型网络上加入一个不确定性预测分支,输出伪标签不确定性
Figure BDA0002956340650000075
基于该不确定性,定义噪声鲁棒损失如下
Figure BDA0002956340650000076
操作S522:根据噪声鲁棒损失,获得对应模型网络的伪标签损失;
基于该噪声鲁棒损失函数,得到RGB和光流模型网络的伪标签损失如下:
Figure BDA0002956340650000081
Figure BDA0002956340650000082
操作S523:将伪标签损失和基础损失结合,得到协同训练网络最终训练损失:
所述最终训练损失如下:
Figure BDA0002956340650000083
其中t为当前迭代次数,w(t)为训练中逐渐调整的伪标签损失权重,定义如下:
Figure BDA0002956340650000084
基于上述损失,用梯度反传来更新学生网络,其中η为学习率,设置为0.0001
Figure BDA0002956340650000085
用滑动平均来更新教师网络,其中超参数γ设置为0.999
Figure BDA0002956340650000086
本公开还提出了一种基于不确定性引导训练的弱监督时域动作定位系统,用于执行以上所述的基于不确定性引导训练的弱监督时域动作定位方法,所述基于不确定性引导训练的弱监督时域动作定位系统,如图2和图3所示,包括:
基础单元,用于对输入的视频进行处理得到目标任务适应的RGB特征和光流特征,进而得到视频级分类结果并计算基础损失,所述基础单元,包括:
视频特征提取模块,用于对输入的视频进行特征提取,得到视频特征;
卷积层,用于对所述视频特征进行处理,得到目标任务适应的RGB特征和光流特征;
注意力模块,用于对所述与目标任务适应的RGB特征和光流特征进行处理,得到对应的注意力权重后加权所述视频特征获得聚合的视频级特征;以及
分类器,用于将所述聚合的视频级特征进行处理后得到视频级分类结果,并计算基础损失;
协同训练单元,用于根据所述RGB特征和光流特征进行协同训练并得到训练损失;所述协同训练单元包括:
RGB模型网络,用于将所述RGB特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签;
光流模型网络,用于将所述光流特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签;
不确定性预测分支,加于所述RGB模型网络和光流模型网络上,用于输出伪标签不确定性并获得噪声鲁棒损失,
基于噪声鲁棒损失,能够得到RGB和光流网络的伪标签损失,与上述基础损失结合后,得到协同训练单元网络最终训练损失,再进一步更新RGB模型网络和光流模型网络。
至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
依据以上描述,本领域技术人员应当对本公开基于不确定性引导训练的弱监督时域动作定位方法及系统有了清楚的认识。
综上所述,本公开提供了一种基于不确定性引导训练的弱监督时域动作定位方法及系统,可应用于视频行为检测相关的应用系统中,对视频中的动作进行定位。在实施时,可以以软件形式嵌入到移动设备中,提供实时分析结果;也可以安装在后台服务器中,提供大批量视频处理结果。
还需要说明的是,实施例中提到的方向用语,例如“上”、“下”、“前”、“后”、“左”、“右”等,仅是参考附图的方向,并非用来限制本公开的保护范围。贯穿附图,相同的元素由相同或相近的附图标记来表示。在可能导致对本公开的理解造成混淆时,将省略常规结构或构造。
并且图中各部件的形状和尺寸不反映真实大小和比例,而仅示意本公开实施例的内容。另外,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。
再者,单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。
说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词,以修饰相应的元件,其本身并不意味着该元件有任何的序数,也不代表某一元件与另一元件的顺序、或是制造方法上的顺序,该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。
此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且,在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (6)

1.一种基于不确定性引导训练的弱监督时域动作定位方法,包括:
对输入的视频进行特征提取,得到视频特征;
对所述视频特征进行处理,得到目标任务适应的RGB特征和光流特征;
对所述与目标任务适应的RGB特征和光流特征进行处理,得到对应的注意力权重后加权所述视频特征获得聚合的视频级特征;以及
将所述聚合的视频级特征进行处理后得到视频级分类结果,完成动作定位;
所述定位方法还包括:根据所述视频级分类结果获取基础损失,并对所述RGB特征和光流特征进行协同训练并得到协同训练模型网络的最终训练损失;
其中,根据所述视频级分类结果获取基础损失,包括:
根据分类结果获得视频级别分类损失;
引入注意力权重约束损失;以及
基于视频级分类损失和注意力权重约束损失,获得基础损失;
其中,对所述RGB特征和光流特征进行协同训练并得到协同训练模型网络的最终训练损失,包括:
将RGB特征和光流特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签;以及
对所述二值伪标签进行降噪,并获得RGB模型网络和光流模型网络的最终训练损失,具体是 :
基于伪标签不确定性,获得噪声鲁棒损失;
所述伪标签不确定性表示为
Figure FDA0003619759770000011
基于该不确定性,定义噪声鲁棒损失为:
Figure FDA0003619759770000012
根据噪声鲁棒损失,获得对应模型网络的伪标签损失;以及
将伪标签损失和基础损失结合,得到协同训练网络最终训练损失。
2.根据权利要求1所述的基于不确定性引导训练的弱监督时域动作定位方法,所述对输入的视频进行特征提取,得到视频特征,包括:
将输入的视频分为多个视频片段;
提取每个所述视频片段中的特征;以及
将该视频的所有片段的特征拼接在一起,作为该视频的特征。
3.根据权利要求1所述的基于不确定性引导训练的弱监督时域动作定位方法,所述对所述视频特征进行处理,得到目标任务适应的RGB特征和光流特征,包括:
根据所述视频特征获取与目标任务适应的RGB特征;以及
根据所述视频特征获取与目标任务适应的光流特征。
4.根据权利要求1所述的基于不确定性引导训练的弱监督时域动作定位方法,所述将所述RGB特征和光流特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签,包括给定输入XR和XF,将其输入对应的教师网络来产生注意力权重伪标签ΛRT和ΛFT,之后通过一个二值化函数G来将他们转化为二值伪标签:
Figure FDA0003619759770000021
其中,λi为第i个片段的注意力权重。
5.根据权利要求1所述的基于不确定性引导训练的弱监督时域动作定位方法,所述训练损失,包括:
Figure FDA0003619759770000022
其中t为当前迭代次数,w(t)为训练中逐渐调整的伪标签损失权重,定义如下:
Figure FDA0003619759770000023
Figure FDA0003619759770000024
为RGB和光流模型网络的基础损失,表达如下:
Figure FDA0003619759770000025
其中,Lcls为视频级别分类损失,表达如下:
Figure FDA0003619759770000031
Latt为注意力权重约束损失,表达为:
Figure FDA0003619759770000032
其中,yi为视频真实类别标签,
Figure FDA0003619759770000033
为视频分类结果,N为视频片段数。
6.一种基于不确定性引导训练的弱监督时域动作定位系统,用于执行权利要求1-5任一项所述的基于不确定性引导训练的弱监督时域动作定位方法,所述基于不确定性引导训练的弱监督时域动作定位系统,包括:
基础单元,用于对输入的视频进行处理得到目标任务适应的RGB特征和光流特征,进而得到视频级分类结果并计算基础损失,所述基础单元,包括:
视频特征提取模块,用于对输入的视频进行特征提取,得到视频特征;
卷积层,用于对所述视频特征进行处理,得到目标任务适应的RGB特征和光流特征;
注意力模块,用于对所述与目标任务适应的RGB特征和光流特征进行处理,得到对应的注意力权重后加权所述视频特征获得聚合的视频级特征;以及
分类器,用于将所述聚合的视频级特征进行处理后得到视频级分类结果,并计算基础损失;以及
协同训练单元,用于根据所述RGB特征和光流特征进行协同训练并得到训练损失;所述协同训练单元包括:
RGB模型网络,用于将所述RGB特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签;
光流模型网络,用于将所述光流特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签;
不确定性预测分支,加于所述RGB模型网络和光流模型网络上,用于输出伪标签不确定性并获得噪声鲁棒损失;
基于噪声鲁棒损失,能够得到RGB和光流网络的伪标签损失,与上述基础损失结合后,得到协同训练单元网络最终训练损失。
CN202110227890.XA 2021-03-01 2021-03-01 基于不确定性引导训练的弱监督时域动作定位方法及系统 Active CN112927266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110227890.XA CN112927266B (zh) 2021-03-01 2021-03-01 基于不确定性引导训练的弱监督时域动作定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110227890.XA CN112927266B (zh) 2021-03-01 2021-03-01 基于不确定性引导训练的弱监督时域动作定位方法及系统

Publications (2)

Publication Number Publication Date
CN112927266A CN112927266A (zh) 2021-06-08
CN112927266B true CN112927266B (zh) 2022-07-15

Family

ID=76172959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110227890.XA Active CN112927266B (zh) 2021-03-01 2021-03-01 基于不确定性引导训练的弱监督时域动作定位方法及系统

Country Status (1)

Country Link
CN (1) CN112927266B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550307B (zh) * 2022-04-22 2022-09-09 中国科学技术大学 动作定位模型的训练方法、装置及动作定位方法
CN115690100B (zh) * 2022-12-28 2023-04-07 珠海横琴圣澳云智科技有限公司 半监督信号点检测模型训练方法、信号点检测方法和装置
CN116612501A (zh) * 2023-07-18 2023-08-18 腾讯科技(深圳)有限公司 对象识别方法、装置、电子设备和计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10896342B2 (en) * 2017-11-14 2021-01-19 Qualcomm Incorporated Spatio-temporal action and actor localization
CN110490055A (zh) * 2019-07-08 2019-11-22 中国科学院信息工程研究所 一种基于三重编码的弱监督行为识别定位方法和装置
CN111914644B (zh) * 2020-06-30 2022-12-09 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及系统

Also Published As

Publication number Publication date
CN112927266A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN112927266B (zh) 基于不确定性引导训练的弱监督时域动作定位方法及系统
Xu et al. Reasoning-rcnn: Unifying adaptive global reasoning into large-scale object detection
CN109858390B (zh) 基于端到端时空图学习神经网络的人体骨架行为识别方法
Song et al. Learning normal patterns via adversarial attention-based autoencoder for abnormal event detection in videos
Li et al. Adaptive deep convolutional neural networks for scene-specific object detection
CN107704877A (zh) 一种基于深度学习的图像隐私感知方法
CN104933428B (zh) 一种基于张量描述的人脸识别方法及装置
CN107590432A (zh) 一种基于循环三维卷积神经网络的手势识别方法
CN106570464A (zh) 一种快速处理人脸遮挡的人脸识别方法及装置
Ashok Kumar et al. Enhanced facial emotion recognition by optimal descriptor selection with neural network
CN105184772A (zh) 一种基于超像素的自适应彩色图像分割方法
CN110956158A (zh) 一种基于教师学生学习框架的遮挡行人再标识方法
CN114863091A (zh) 一种基于伪标签的目标检测训练方法
CN114692732A (zh) 一种在线标签更新的方法、系统、装置及存储介质
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
CN115311605A (zh) 基于近邻一致性和对比学习的半监督视频分类方法及系统
Keisham et al. Multi-level alignment for few-shot temporal action localization
CN111797935B (zh) 基于群体智能的半监督深度网络图片分类方法
Zhou et al. MSFlow: Multiscale Flow-Based Framework for Unsupervised Anomaly Detection
CN114462290A (zh) 一种生成预训练人工智能模型的方法及装置
CN112347965A (zh) 一种基于时空图的视频关系检测方法和系统
Liu et al. Tracking with mutual attention network
CN115240647A (zh) 声音事件检测方法、装置、电子设备及存储介质
Wang et al. Self-supervised learning for high-resolution remote sensing images change detection with variational information bottleneck
Sheng et al. Weakly supervised coarse-to-fine learning for human action segmentation in HCI videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant