CN112818828B - 基于记忆网络的弱监督时域动作定位方法及系统 - Google Patents

基于记忆网络的弱监督时域动作定位方法及系统 Download PDF

Info

Publication number
CN112818828B
CN112818828B CN202110122077.6A CN202110122077A CN112818828B CN 112818828 B CN112818828 B CN 112818828B CN 202110122077 A CN202110122077 A CN 202110122077A CN 112818828 B CN112818828 B CN 112818828B
Authority
CN
China
Prior art keywords
video
action
time domain
positioning
memory network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110122077.6A
Other languages
English (en)
Other versions
CN112818828A (zh
Inventor
张天柱
张勇东
罗网
吴枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110122077.6A priority Critical patent/CN112818828B/zh
Publication of CN112818828A publication Critical patent/CN112818828A/zh
Application granted granted Critical
Publication of CN112818828B publication Critical patent/CN112818828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供一种基于记忆网络的弱监督时域动作定位方法,包括:对输入的视频进行特征提取,得到针对定位任务的视频特征;构建动作单元记忆库;根据所述视频特征,建模视频内部的时序结构,得到语义增强的特征;读取所述动作单元记忆库的信息并进行维度变换后,应用于所述语义增强的视频特征生成片段级分类结果;以及获取模板相似性并进行最大池化生成前景注意力权重,再结合所述片段级分类结果确定动作的类别,从而实现基于记忆网络的弱监督时域动作的定位。本公开同时还提供一种基于记忆网络的弱监督时域动作定位系统。

Description

基于记忆网络的弱监督时域动作定位方法及系统
技术领域
本公开涉及人工智能技术领域,关于智能行为分析,尤其涉及一种基于记忆网络的弱监督时域动作定位方法及系统。
背景技术
时域动作定位的目的是找到视频中动作的开始和结束时间,在智能监控、视频摘要、异常检测等领域有着广泛的应用。
传统的时域动作定位方法通常基于全监督学习,首先利用具有动作起止时间的标注数据来训练模型,然后进行动作定位。但是这样的标注数据昂贵且耗时,限制了时域动作定位的实用性。
为了减轻对数据的依赖,从而提升应用场景中的拓展性以及效率。基于弱监督学习的时域动作定位算法逐渐受到关注,与全监督方法的性能差距也逐渐缩小。然而,由于训练过程中缺少动作边界的标注,模型趋向于只关注动作的核心片段且容易受到非动作片段的干扰,导致定位不完整以及错误定位。
因此,如何实现更有效的弱监督时域动作定位是一个亟需解决的技术课题。
发明内容
(一)要解决的技术问题
基于上述问题,本公开提供了一种基于记忆网络的弱监督时域动作定位方法及系统,以缓解现有技术中弱监督时域动作定位训练模型只关注动作的核心片段且容易受到非动作片段的干扰,导致定位不完整以及错误定位等技术问题。
(二)技术方案
本公开的一个方面,提供一种基于记忆网络的弱监督时域动作定位方法,包括:
对输入的视频进行特征提取,得到针对定位任务的视频特征;
构建动作单元记忆库;
根据所述视频特征,建模视频内部的时序结构,得到语义增强的特征;
读取所述动作单元记忆库的信息并进行维度变换后,应用于所述语义增强的视频特征生成片段级分类结果;以及
获取模板相似性并进行最大池化生成前景注意力权重,再结合所述片段级分类结果确定动作的类别,从而实现基于记忆网络的弱监督时域动作的定位。
在本公开实施例中,所述对输入的视频进行特征提取,得到针对定位任务的视频特征,包括:
将输入的视频分为多个视频片段;
提取每个所述视频片段中的特征;以及
获得针对定位任务的视频特征。
在本公开实施例中,所述构建动作单元记忆库,包括:
预定义多个动作单元模板;以及
根据所述多个动作单元模板得到动作单元自适应分类器和用于检索的关键值,完成动作单元记忆库的构建。
在本公开实施例中,为了保证记忆库中动作单元模板的有效性引入差异性损失Ld来确保模板之间的差异性:
Ld=||MMT-I||F
其中,I为单位矩阵,||·||F为Frobenius范数。
在本公开实施例中,分别应用多层感知机和全连接层得到动作单元自适应分类器和用于检索的关键值。
在本公开实施例中,根据针对定位任务的视频特征Xe,引入一个自注意力模块,建模视频内部的时序结构,得到语义增强的特征Xs
Figure GDA0003568279680000021
其中,Q为包含视频表象与运动信息的查询值,F、m分别为特征维度和降维尺度参数。
在本公开实施例中,通过交叉注意力模块来读取动作单元记忆库中的信息VO
Figure GDA0003568279680000031
其中,KM为用于检索的关键值,VM为动作单元自适应分类器,对读取的记忆库中的信息VO进行维度变换便可得到自适应的片段级别分类器,并将其应用于视频特征生成片段级分类结果。
在本公开实施例中,所述获取模板相似性并进行最大池化生成前景注意力权重,再结合所述片段级分类结果确定动作的类别,从而实现基于记忆网络的弱监督时域动作的定位,包括:
根据所述定位任务的视频特征、动作单元记忆库中动作单元自适应分类器和用于检索的关键值获取模板相似性,并引入均衡性损失;
对所述模板相似性进行最大池化生成前景注意力权重,并引入稀疏性损失;以及
利用所述前景注意力权重进行阈值截断得到预测的动作起始、截止时间,并结合所述片段级分类结果确定动作的类别,从而实现视频时域动作的分类和定位。
在本公开实施例中,所述均衡性损失Lh
Figure GDA0003568279680000032
所述稀疏性损失Ls为:
Figure GDA0003568279680000033
所述利用所述前景注意力权重进行阈值截断得到预测的动作起始、截止时间,并结合所述片段级分类结果确定动作的类别,从而实现视频时域动作的分类和定位,包括:
对所有片段级分类结果进行加权池化,得到预测结果;
最终视频级分类结果
Figure GDA0003568279680000034
为所有片段级分类结果的加权池化:
Figure GDA0003568279680000035
利用视频级标签y及预测结果
Figure GDA0003568279680000036
使用交叉熵损失作为分类损失来引导记忆网络的学习:
Figure GDA0003568279680000041
其中,B为批量大小,l为视频中片段数目,i为视频序号,t为片段序号,li为第i个视频的片段数目,Si(t)为第i个视频第t个片段与每个动作单元模板的相似度,ai为第i个视频的前景注意力权重,a(t)为第i个视频第t个片段的前景注意力权重,Wcls为自适应的片段级别分类器,Xs为视频特征。
在本公开的另一方面,提供一种基于记忆网络的弱监督时域动作定位系统,用于执行以上任一项所述的定位方法,所述系统包括:
特征提取模块,用于对输入的视频进行特征提取,得到针对定位任务的视频特征;
动作单元记忆库;
自注意力模块,用于根据所述视频特征,建模视频内部的时序结构,得到语义增强的特征;以及
交叉注意力模块,用于读取所述动作单元记忆库的信息并进行维度变换后,应用于所述语义增强的视频特征生成片段级分类结果,还用于获取模板相似性并进行最大池化生成前景注意力权重,再结合所述片段级分类结果确定动作的类别,从而实现基于记忆网络的弱监督时域动作的定位。
(三)有益效果
从上述技术方案可以看出,本公开基于记忆网络的弱监督时域动作定位方法及系统至少具有以下有益效果其中之一或其中一部分:
(1)训练过程不需要人工参与,能通过多种约束端到端地学习网络参数;
(2)只需要视频级别的类别标签进行训练,大大减少了人力和时间耗费;
(3)该方法能够建模动作的基本组成单元来进行细粒度的动作分类,从而实现完整、鲁棒的动作定位;
(4)可以应用于视频分析相关的应用系统中;
(5)在实施时既可以以软件的方式安装于个人手机或电脑上,提供实时时域定位结果;也可以安装于公司的后台服务器,提供大批量视频处理结果。
附图说明
图1为本公开实施例基于记忆网络的弱监督时域动作定位系统的组成和原理示意图。
图2为本公开实施例基于记忆网络的弱监督时域动作定位方法的流程示意图。
具体实施方式
本公开提供了一种基于记忆网络的弱监督时域动作定位方法及系统,与现有方法相比,该方法训练过程不需要人工参与,能通过多种约束端到端地学习网络参数;该方法只需要视频级别的类别标签进行训练,大大减少了人力和时间耗费;该方法能够建模动作的基本组成单元来进行细粒度的动作分类,从而实现完整、鲁棒的动作定位。
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
在本公开实施例中,提供一种基于记忆网络的弱监督时域动作定位方法,如图1所示,所述方法,包括:
操作S1:对输入的视频进行特征提取,得到针对定位任务的视频特征;
在本公开实施例中,通过视频特征提取模块完成操作S1,上述操作S1包括:
操作S11:将输入的视频分为多个视频片段;
操作S12:提取每个所述视频片段中的特征;以及
操作S13:获得针对定位任务的视频特征;
在本公开实施例中,操作S11中,对于一个输入视频V,首先将其分为16帧一组的多个片段。操作S12中使用经过预训练的行为识别网络I3D提取每个视频片段的特征;操作S13中,通过全连接层得到针对定位任务的视频特征Xe,用于之后的动作分类和定位。
操作S2:构建动作单元记忆库;
在本公开实施例中,操作S2包括:
操作S21:预定义多个动作单元模板;
操作S22:根据所述多个动作单元模板得到动作单元自适应分类器和用于检索的关键值,完成动作单元记忆库的构建。
在本公开实施例中,操作S21中,预定义多个动作单元模板M;
为了保证记忆库中动作单元模板的有效性,我们引入差异性损失Ld来确保模板之间的差异性:
Ld=||MMT-I||F
其中,I为单位矩阵,||·||F为Frobenius范数。
操作S22中,为了提取动作单元相关的信息(分类信息和运动信息),分别应用多层感知机和全连接层得到动作单元自适应分类器VM和用于检索的关键值KM
操作S3:根据所述视频特征,建模视频内部的时序结构,得到语义增强的特征;
在本公开实施例中,对于针对定位任务的视频特征Xe,引入一个自注意力模块来,建模视频内部的时序结构,得到语义增强的视频特征Xs
Figure GDA0003568279680000061
其中Q为包含视频表象与运动信息的查询值,F、m分别为特征维度和降维尺度参数。
操作S4:读取所述动作单元记忆库的信息并进行维度变换后,应用于所述语义增强的视频特征生成片段级分类结果;
在本公开实施例中,对于动作单元记忆库,设置一个交叉注意力模块来读取记忆库中的信息VO
Figure GDA0003568279680000062
对读取的记忆库中的信息VO进行维度变换便可得到自适应的片段级别分类器Wcls,并将其应用于视频特征Xs生成片段级分类结果C。
操作S5:获取模板相似性并进行最大池化生成前景注意力权重,再结合所述片段级分类结果确定动作的类别,从而实现基于记忆网络的弱监督时域动作的定位。
在本公开实施例中,所述操作S5,包括:
操作S51:根据所述定位任务的视频特征、动作单元记忆库中动作单元自适应分类器和用于检索的关键值获取模板相似性S,并引入均衡性损失:
Figure GDA0003568279680000071
在本公开实施例中,为使得每个模板是有意义的,针对模板的相似性,引入均衡性损失Lh
Figure GDA0003568279680000072
其中,B为批量大小,l为视频中片段数目,i为视频序号,t为片段序号,li为第i个视频的片段数目,Si(t)为第i个视频第t个片段与每个动作单元模板的相似度。
操作S52:对所述模板相似性进行最大池化生成前景注意力权重,并引入稀疏性损失;
在本公开实施例中,为了抑制背景片段,我们对模板相似性进行最大池化生成前景注意力权重a,且基于视频中动作的稀疏性,引入了稀疏性损失Ls
Figure GDA0003568279680000073
其中,ai为第i个视频的前景注意力权重;
操作S53:利用所述前景注意力权重进行阈值截断得到预测的动作起始、截止时间,并结合所述片段级分类结果确定动作的类别,从而实现视频时域动作的分类和定位。
在本公开实施例中,对所有片段级分类结果进行加权池化,得到预测结果;
最终视频级分类结果
Figure GDA0003568279680000074
为所有片段级分类结果的加权池化:
Figure GDA0003568279680000075
其中,a(t)为第i个视频第t个片段的前景注意力权重,Wcls为自适应的片段级别分类器,利用视频级标签y及预测结果
Figure GDA0003568279680000081
使用交叉熵损失作为分类损失来引导记忆网络的学习:
Figure GDA0003568279680000082
可见,最终总的损失L为上述差异性损失、均衡性损失、稀疏性损失、交叉熵损失四个损失加权和,用来训练整个端到端的网络。
L=Lcls+αLd+βLh+γLs
在本公开实施例中,在网络训练完成之后,我们利用对前景注意力权重a进行阈值截断得到预测的动作起始、截止时间,并结合片段级分类结果C确定动作的类别,从而实现时域动作的分类和定位,完成基于记忆网络的弱监督时域动作定位。
在本公开的另一方面,还提供一种基于记忆网络的弱监督时域动作定位系统,用于执行以上所述的定位方法,所述定位系统包括:
特征提取模块,用于对输入的视频进行特征提取,得到针对定位任务的视频特征;
动作单元记忆库;
自注意力模块,用于根据所述视频特征,建模视频内部的时序结构,得到语义增强的特征;以及
交叉注意力模块,用于读取所述动作单元记忆库的信息并进行维度变换后,应用于所述语义增强的视频特征生成片段级分类结果,还用于获取模板相似性并进行最大池化生成前景注意力权重,再结合所述片段级分类结果确定动作的类别,从而实现基于记忆网络的弱监督时域动作的定位。
至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
依据以上描述,本领域技术人员应当对本公开基于记忆网络的弱监督时域动作定位方法及系统有了清楚的认识。
综上所述,本公开提供了一种基于记忆网络的弱监督时域动作定位方法及系统,本公开提出的方法从探索动作的基本单元出发,通过对动作单元进行建模进行片段级的分类,从而实现完整、鲁棒的弱监督时域动作定位。本公开可以应用于视频分析相关的应用系统中。在实施上,可以以软件的方式安装于个人手机或电脑上,提供实时时域定位结果;也可以安装于公司的后台服务器,提供大批量视频处理结果。
还需要说明的是,实施例中提到的方向用语,例如“上”、“下”、“前”、“后”、“左”、“右”等,仅是参考附图的方向,并非用来限制本公开的保护范围。贯穿附图,相同的元素由相同或相近的附图标记来表示。在可能导致对本公开的理解造成混淆时,将省略常规结构或构造。
并且图中各部件的形状和尺寸不反映真实大小和比例,而仅示意本公开实施例的内容。另外,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。
再者,单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。
说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词,以修饰相应的元件,其本身并不意味着该元件有任何的序数,也不代表某一元件与另一元件的顺序、或是制造方法上的顺序,该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。
此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且,在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (9)

1.一种基于记忆网络的弱监督时域动作定位方法,包括:
对输入的视频进行特征提取,得到针对定位任务的视频特征;
构建动作单元记忆库;
根据所述视频特征,建模视频内部的时序结构,得到语义增强的特征;
读取所述动作单元记忆库的信息并进行维度变换后,应用于所述语义增强的视频特征生成片段级分类结果;以及
获取模板相似性并进行最大池化生成前景注意力权重,再结合所述片段级分类结果确定动作的类别,从而实现基于记忆网络的弱监督时域动作的定位;
所述构建动作单元记忆库,包括:
预定义多个动作单元模板;以及
根据所述多个动作单元模板得到动作单元自适应分类器和用于检索的关键值,完成动作单元记忆库的构建。
2.根据权利要求1所述的基于记忆网络的弱监督时域动作定位方法,所述对输入的视频进行特征提取,得到针对定位任务的视频特征,包括:
将输入的视频分为多个视频片段;
提取每个所述视频片段中的特征;以及
获得针对定位任务的视频特征。
3.根据权利要求1所述的基于记忆网络的弱监督时域动作定位方法,为了保证记忆库中动作单元模板的有效性引入差异性损失Ld来确保模板之间的差异性:
Ld=||MMT-I||F
其中,I为单位矩阵,||·||F为Frobenius范数。
4.根据权利要求1所述的基于记忆网络的弱监督时域动作定位方法,分别应用多层感知机和全连接层得到动作单元自适应分类器和用于检索的关键值。
5.根据权利要求1所述的基于记忆网络的弱监督时域动作定位方法,根据针对定位任务的视频特征Xe,引入一个自注意力模块,建模视频内部的时序结构,得到语义增强的特征Xs
Figure FDA0003568279670000021
其中,Q为包含视频表象与运动信息的查询值,F、m分别为特征维度和降维尺度参数。
6.根据权利要求1所述的基于记忆网络的弱监督时域动作定位方法,通过交叉注意力模块来读取动作单元记忆库中的信息VO
Figure FDA0003568279670000022
其中,KM为用于检索的关键值,VM为动作单元自适应分类器,对读取的记忆库中的信息VO进行维度变换便可得到自适应的片段级别分类器,并将其应用于视频特征生成片段级分类结果。
7.根据权利要求1所述的基于记忆网络的弱监督时域动作定位方法,所述获取模板相似性并进行最大池化生成前景注意力权重,再结合所述片段级分类结果确定动作的类别,从而实现基于记忆网络的弱监督时域动作的定位,包括:
根据所述定位任务的视频特征、动作单元记忆库中动作单元自适应分类器和用于检索的关键值获取模板相似性,并引入均衡性损失;
对所述模板相似性进行最大池化生成前景注意力权重,并引入稀疏性损失;以及
利用所述前景注意力权重进行阈值截断得到预测的动作起始、截止时间,并结合所述片段级分类结果确定动作的类别,从而实现视频时域动作的分类和定位。
8.根据权利要求7所述的基于记忆网络的弱监督时域动作定位方法,所述均衡性损失Lh
Figure FDA0003568279670000031
所述稀疏性损失Ls为:
Figure FDA0003568279670000032
所述利用所述前景注意力权重进行阈值截断得到预测的动作起始、截止时间,并结合所述片段级分类结果确定动作的类别,从而实现视频时域动作的分类和定位,包括:
对所有片段级分类结果进行加权池化,得到预测结果;
最终视频级分类结果
Figure FDA0003568279670000033
为所有片段级分类结果的加权池化:
Figure FDA0003568279670000034
利用视频级标签y及预测结果
Figure FDA0003568279670000035
使用交叉熵损失作为分类损失来引导记忆网络的学习:
Figure FDA0003568279670000036
其中,B为批量大小,l为视频中片段数目,i为视频序号,t为片段序号,li为第i个视频的片段数目,Si(t)为第i个视频第t个片段与每个动作单元模板的相似度,ai为第i个视频的前景注意力权重,a(t)为第i个视频第t个片段的前景注意力权重,Wcls为自适应的片段级别分类器,Xs为视频特征。
9.一种基于记忆网络的弱监督时域动作定位系统,用于执行以上权利要求1至8任一项所述的定位方法,所述系统包括:
特征提取模块,用于对输入的视频进行特征提取,得到针对定位任务的视频特征;
动作单元记忆库;
自注意力模块,用于根据所述视频特征,建模视频内部的时序结构,得到语义增强的特征;以及
交叉注意力模块,用于读取所述动作单元记忆库的信息并进行维度变换后,应用于所述语义增强的视频特征生成片段级分类结果,还用于获取模板相似性并进行最大池化生成前景注意力权重,再结合所述片段级分类结果确定动作的类别,从而实现基于记忆网络的弱监督时域动作的定位。
CN202110122077.6A 2021-01-27 2021-01-27 基于记忆网络的弱监督时域动作定位方法及系统 Active CN112818828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110122077.6A CN112818828B (zh) 2021-01-27 2021-01-27 基于记忆网络的弱监督时域动作定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110122077.6A CN112818828B (zh) 2021-01-27 2021-01-27 基于记忆网络的弱监督时域动作定位方法及系统

Publications (2)

Publication Number Publication Date
CN112818828A CN112818828A (zh) 2021-05-18
CN112818828B true CN112818828B (zh) 2022-09-09

Family

ID=75859979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110122077.6A Active CN112818828B (zh) 2021-01-27 2021-01-27 基于记忆网络的弱监督时域动作定位方法及系统

Country Status (1)

Country Link
CN (1) CN112818828B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577841A (zh) * 2013-11-11 2014-02-12 浙江大学 一种无监督多视图特征选择的人体行为识别方法
CN108830157A (zh) * 2018-05-15 2018-11-16 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111231983A (zh) * 2020-01-14 2020-06-05 浙江吉利汽车研究院有限公司 基于交通事故记忆网络的车辆控制方法、装置及设备
CN111340005A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法和系统
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11232346B2 (en) * 2017-06-06 2022-01-25 The Regents Of The University Of Michigan Sparse video inference processor for action classification and motion tracking

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577841A (zh) * 2013-11-11 2014-02-12 浙江大学 一种无监督多视图特征选择的人体行为识别方法
CN108830157A (zh) * 2018-05-15 2018-11-16 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111231983A (zh) * 2020-01-14 2020-06-05 浙江吉利汽车研究院有限公司 基于交通事故记忆网络的车辆控制方法、装置及设备
CN111340005A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法和系统
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An approach on discretizing time series using recurrent neural network;Kuan-Cheok LEI 等;《2018 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)》;20190124;第2522- 2526页 *
基于深度学习的车辆时序动作检测算法;卫星 等;《计算机工程与设计》;20201231;第3510-3516页 *

Also Published As

Publication number Publication date
CN112818828A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
Xu et al. Reasoning-rcnn: Unifying adaptive global reasoning into large-scale object detection
CN108647736B (zh) 一种基于感知损失和匹配注意力机制的图像分类方法
WO2022001232A1 (zh) 一种问答数据增强方法、装置、计算机设备及存储介质
Feng et al. Bag of visual words model with deep spatial features for geographical scene classification
CN112668482B (zh) 人脸识别训练方法、装置、计算机设备及存储介质
CN112597324A (zh) 一种基于相关滤波的图像哈希索引构建方法、系统及设备
CN114510939A (zh) 实体关系抽取方法、装置、电子设备及存储介质
CN112528029A (zh) 文本分类模型处理方法、装置、计算机设备及存储介质
Lu et al. Domain-aware se network for sketch-based image retrieval with multiplicative euclidean margin softmax
Zhao et al. A novel two-stage scene classification model based on feature variable significance in high-resolution remote sensing
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
Guo et al. An Improved Neural Network Model Based on Inception‐v3 for Oracle Bone Inscription Character Recognition
Yu et al. Self-label refining for unsupervised person re-identification
Zhou et al. MSFlow: Multiscale Flow-Based Framework for Unsupervised Anomaly Detection
Xue et al. Learning semantic dependencies with channel correlation for multi-label classification
Rajpal et al. Deep learning model for recognition of handwritten Devanagari numerals with low computational complexity and space requirements
Wang et al. Extrinsic least squares regression with closed-form solution on product Grassmann manifold for video-based recognition
Dong et al. A supervised dictionary learning and discriminative weighting model for action recognition
CN112818828B (zh) 基于记忆网络的弱监督时域动作定位方法及系统
Zhang et al. Multi-scale network with shared cross-attention for audio–visual correlation learning
Wang et al. Image Target Recognition Based on Improved Convolutional Neural Network
Chen et al. ABOS: an attention-based one-stage framework for person search
Chan et al. Person Re-Identification Based on Feature Fusion in AI System
Xu et al. Verification Code Recognition Based on Active and Deep Learning
CN112818829B (zh) 基于结构网络的弱监督时域动作定位方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant