CN110490055A - 一种基于三重编码的弱监督行为识别定位方法和装置 - Google Patents

一种基于三重编码的弱监督行为识别定位方法和装置 Download PDF

Info

Publication number
CN110490055A
CN110490055A CN201910610183.1A CN201910610183A CN110490055A CN 110490055 A CN110490055 A CN 110490055A CN 201910610183 A CN201910610183 A CN 201910610183A CN 110490055 A CN110490055 A CN 110490055A
Authority
CN
China
Prior art keywords
video
feature
short
sighted frequency
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910610183.1A
Other languages
English (en)
Inventor
张晓宇
石海超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201910610183.1A priority Critical patent/CN110490055A/zh
Publication of CN110490055A publication Critical patent/CN110490055A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于三重编码的弱监督行为识别定位方法和装置。本方法为:利用训练样本集训练一个分类器以及编码器‑解码器架构中的编码器和解码器:其中,首先提取每对长视频和短视频的特征并输入到解码器,重构视频特征并计算重构损失函数对网络参数进行更新,另一方面将提取特征输入到自注意力模块,提取自注意力特征及权重;如何将自注意力特征输入到分类器进行分类,得到视频分类结果;测试阶段,利用训练好编码器‑解码器架构提取视频的自注意力特征及其权重,然后利用训练好的分类器获取该视频的视频分类结果,计算得到该视频的T‑CAM值;然后根据T‑CAM值将视频中的动作与背景区分开,并得到动作发生的时间段。

Description

一种基于三重编码的弱监督行为识别定位方法和装置
技术领域
本发明属于视频分析领域,涉及视频行为识别和检测技术,具体涉及一种基于三重编码的弱监督行为识别定位方法和装置。
背景技术
视频行为识别和检测技术,是视频分析的主要分支之一。视频分析就是使用计算机图像视觉分析技术,通过将场景中背景和目标分离进而分析并追踪载摄像机场景内目标。由于互联网视频数据的不断涌现,视频内容分析在工业和学术领域吸引了广泛的注意力。视频内容分析一个重要的分支是行为识别,行为识别通常是致力于对人工裁剪好的视频片段进行分类。然而,大多数现实世界的视频都是长视频,并且包含多个动作实例,同时包含不相关的背景场景和活动。因此,学术和工业领域也开始将注意力放在时序行为检测的任务上。时序行为检测致力于检测长视频中的动作实例,包括时序的动作边界和实例类别。对于时序行为检测的任务可以应用到监控视频分析和智能家居护理等任务上。
行为检测可以看作是每一张图像进行目标检测的时序版本,单张图像的目标检测和视频的行为检测的目标都是检测边界以及多个实例的类别信息(时序上的动作和空间上物体)。目前大多数目标检测的模型是基于R-CNN以及其变体进行,这些模型采用的是通过对边界的候选区域进行分类以及检测的框架。受到R-CNN的启发,很多时序行为检测的方法采用相似的框架,对候选区域方法生成的时序动作实例进行分类,或者使用简单的滑动窗口的方法。这些框架有很多局限性:首先,候选区域的生成和分类模型是分别进行训练的;其次,候选区域生成方法或者滑动窗口方法需要额外的时间消耗;由滑动窗口方法产生的动作实例的时序动作边界通常是近似的,而不是精确的;同时,因为滑动窗口的尺度大小不一致,对于预测各种各样尺度的实例也不灵活;对大量训练数据进行时序标注需要耗费大量时间。
发明内容
本发明的目的在于提供一种基于三重编码的弱监督行为识别定位方法和装置,利用额外的短视频特征信息,进行知识迁移,在这个过程中,仅仅利用长视频和短视频的视频级别的标注信息,不用长视频的时序标签,使用弱监督学习提高长视频的行为识别和定位能力。
本发明首先使用ResNet101对长视频和短视频分别提取RGB特征和光流特征,即视频级别的特征,然后对于每一种视频类型的特征,输入到三种编码器中,从编码器出来的特征一方面输入解码器,对短视频和长视频的特征进行重建,另一方面输入自注意力模块,得到自注意力特征,进一步进行行为识别和检测。
本发明采用的技术方案如下:
一种基于三重编码的弱监督行为识别定位方法,包括以下步骤:
1)利用训练样本集训练一个分类器以及编码器-解码器架构中的编码器和解码器:其中,对于训练样本集中每一对长视频和短视频;首先提取该对长视频和短视频的特征;训练样本集中包括多对长视频和短视频,同一对长视频和短视频属于同一视频;然后将长视频的特征输入编码器提取长视频特征的隐向量,将短视频的特征输入编码器提取短视频特征的隐向量;然后将长视频的隐向量输入到解码器中重建长视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新,将短视频的隐向量输入到解码器中重建短视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新;将长视频的隐向量输入到自注意力模块提取长视频的每一帧自注意力特征及其权重,将短视频的隐向量输入到自注意力模块提取短视频的每一帧自注意力特征及其权重;然后将得到的自注意力特征输入到分类器进行分类,得到长视频的视频分类结果和短视频的视频分类结果;
2)测试阶段,对于一待处理的视频,利用训练好编码器-解码器架构提取该视频的自注意力特征及其权重,然后利用训练好的分类器获取该视频的视频分类结果;然后根据该视频的自注意力特征权重和视频分类结果计算得到该视频的T-CAM值;然后根据该视频的T-CAM值将该视频中的动作与背景区分开,并得到该视频中动作发生的时间段。
进一步地,所述提取长视频和短视频的特征包括RGB特征和光流特征。
进一步地,采用ResNet101网络提取长视频和短视频的特征。
进一步的,在编码器-解码器框架下,使用一个三元组编码器{Ep,t,Es,Ep,u},进一步提取视频特征的隐向量;Ep,t是对短视频的特征进行编码,即短视频专有特征编码器;Es是对长视频和短视频公有的特征进行编码,即长视频短视频公有特征编码器;Ep,u是对长视频专有的特征进行编码,即长视频专有特征编码器。所述提取的视频特征的隐向量包括:
a)对于长视频特征,将该特征分别输入到Es、Ep,u,得到长视频特有的特征和公共的特征;长视频的特有特征包括背景特征和低维视频统计特征;公共的特征包括映射到公共子空间中的高维视频特征。
b)对于短视频特征,将该特征分别输入到Ep,t,Es,得到短视频特有的特征和公共的特征;短视频的特有特征包括背景特征和低维视频统计特征;公共的特征包括映射到公共子空间中的高维视频特征。
对于同一种视频(长视频或者短视频),得到特有的特征和公共的特征之后,在输入到解码器之前,需要将同一类视频的每一个视频的特有特征和公共特征结合,对两种特征进行特征融合作为解码器的输入。
将提取的视频特征的隐向量输入到解码器以及输入到自注意力模块。
进一步地,将隐向量输入到解码器是为了重建视频特征;解码器对编码器得到的视频特征进行解码,将编码的特征大小恢复到输入到编码器的特征大小,计算重建损失函数,对编码器-解码器架构的网络参数进行优化。输入到解码器中的隐向量包括提取长视频和短视频得到的特有特征和公共特征。
进一步地,将隐向量输入到自注意力模块是为了提取自注意力特征进行行为识别并且根据得到的自注意力权重进行行为定位。自注意力模块对输入的隐向量进行如下操作:首先对隐向量进行特征维度变换,经过tanh激活函数后再经过维度变换,输入到softmax里对隐向量进行归一化操作,得到自注意力权重向量,用编码器得到的视频隐向量特征表示与自注意力权重向量相乘,得到自注意力特征。
进一步地,得到的自注意力权重是每一帧的权重。
进一步地,根据得到的自注意力的权重和对视频的分类结果相乘,得到每一个视频的向量表示;得到的视频向量用来进行视频分类(动作识别),视频的分类结果根据softmax的分类结果得到,在训练的时候给定视频标签,然后分类的时候softmax的输出是一个N维向量,N代表视频的类别数,每一个类别对应一个序号,最大值就代表视频属于对应的类别,从而可以得到视频的分类结果。
进一步地,为了得到更加精确的动作时间段,计算T-CAM(时序类别激活映射)值,将RGB和光流的信息都融合进来,得到最终的行为定位的结果。进行行为定位的原理是:得到的自注意力权重向量,每一个值代表一帧的权重,设置阈值,根据权重大小判断是视频动作还是背景,因为视频背景的自注意力权重肯定比视频中动作的权重小,根据这一个判定准则,就可以筛选出连续动作的帧片段,进行动作定位。
T-CAM值的计算方法为:首先将输入到softmax的特征矩阵与编码器得到的特征矩阵相乘,得到维度转换后的特征矩阵;然后对上述得到的特征矩阵进行sigmoid操作,判断是否是该动作类别,然后用自注意力权重与sigmoid计算得到的类别概率相乘,就得到T-CAM值(向量)。
对特有特征和公共特征分别计算得到对应的T-CAM值,然后将这两种T-CAM值加权,得到RGB或者光流特征的T-CAM值,最终将RGB和光流分别计算得到的T-CAM值加权,就得到每个视频最终的T-CAM值,根据设定的阈值,就可以将T-CAM向量(表示视频每一帧的重要性)中的动作还是背景区分出来,经过后处理(NMS),就可以将连续动作帧或者背景帧找出来,从而对视频中的动作进行定位。本方法中提出的T-CAM称为Multi-view T-CAM(多视角T-CAM)。
一种基于三重编码的弱监督行为识别定位装置,包括:
特征提取单元,用于对长视频和短视频进行特征提取;
三重编码器单元,用于对特征提取单元得到的特征进行编码,分别得到长视频和短视频的特有特征和公共特征;
解码器单元,用于对三重编码器得到的特征进行解码,重建视频特征;
行为识别单元,用于对提取的自注意力特征进行动作分类,得到长视频属于某一类的概率;
进一步地,还包括行为定位单元,用于根据自注意力权重计算得到的T-CAM值,区分视频中的动作或者背景,并且采用非极大值抑制进行后处理,得到视频中动作实例发生的时间间隔,提升行为定位的平均精度。
利用本发明的方法可以对长视频进行动作分类并定位动作发生的时间间隔,与现有技术相比具有以下优点:
1、本发明提出一种对原始视频特征进行编解码,并且在编码之后对长视频和短视频进行知识迁移,将视频特征映射到一个连续的子空间中,从而对长视频进行行为识别和定位;
2、本发明使用编码-解码的框架进行模型学习,整合了三个编码器提取长视频和短视频的特有的特征和共同的特征,并且利用解码器重构视频特征,防止视频信息的损耗;
3、本发明使用弱监督学习机制学习模型,仅仅使用视频级别的标签进行训练,不使用时序的标签,大大降低了计算复杂度以及时序标注的时间。
附图说明
图1是利用本发明方法进行视频行为识别和定位的流程图;其中“数据预处理”是指对图片进行统一裁剪操作(比如进行center cropped操作,统一裁剪成224×224的大小)。
具体实施方式
下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明提供的基于三重编码的弱监督行为识别和定位方法,适用于对长视频进行行为识别和定位,该方法的流程如图1所示,其主要步骤包括:首先对视频进行预处理,提取RGB帧和光流,然后分别对RGB帧和光流提取特征,得到RGB特征和光流特征,并将提取的特征输入三重编码器,提取编码之后的视频特征,得到视频特有的特征和共同的特征。一方面,将这些特征输入解码器,重建视频特征,以减小信息损耗;另一方面,将这些特征,送到自注意力模块(参考自注意力机制算法Lin,Zhouhan,et al."A structured self-attentive sentence embedding."In 5th International Conference on LearningRepresentations(ICLR)2017),提取自注意力特征,并对自注意力特征进行分类,得到视频行为识别的结果,根据得到的行为识别的结果和计算得到的自注意力权重,对视频的动作实例进行定位。
本发明方法分为训练和测试两部分,训练阶段,训练三个编码器,一个解码器和一个分类器。在测试阶段,只需要经过三个编码器和分类器,就可以得到视频的分类结果和自注意力权重,并且根据得到的自注意力权重和分类结果进行视频动作定位。
实例1基于三重编码的弱监督行为识别定位方法和装置
以THUMOS14数据集为例,数据集中长视频和短视频是成对出现的,输入的是视频对:
1)首先使用ResNet101提取每对长视频和短视频的RGB特征和光流特征;
2)将ResNet101提取的RGB和光流特征输入到三重编码器中,分别得到长视频和短视频的特有特征和公共的特征;
3)将2)得到的视频的特有特征和公共的特征一方面输入到解码器,重构视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新(重构视频特征是为了减小提取视频特征过程中造成的信息损失;重构损失函数是利用解码器输出的重构特征与编码器对应的输入计算重构损失),另一方面输入到自注意力模块,提取自注意力特征,并且计算得到视频帧的自注意力权重;其中,将长视频的隐向量输入到注意力模块提取长视频的自注意力特征及其权重,将短视频的隐向量输入到注意力模块提取短视频的自注意力特征及其权重。
另外,还有两个损失函数的计算如下:
(1)差分损失函数,通过计算长视频的特有特征和公共特征之间的JS散度和短视频的特有特征和公共特征之间的JS散度得到;
(2)适应性损失函数,通过计算长视频和短视频的公共特征的JS散度得到。
利用重构损失函数、差分损失函数和适应性损失函数对编码器-解码器架构的网络参数进行更新。
如下分别是适应性损失函数和差分损失函数的表达式
如下是重构损失函数的表达式:
其中表示长视频和短视频标签一致的情况下短视频的公共特征,表示长视频和短视频标签一致的情况下长视频的公共特征,表示长视频和短视频标签不一致的情况下短视频的公共特征,表示长视频和短视频标签不一致的情况下长视频的公共特征。
表示输入到编码器的短视频的特征,表示重构的短视频的特征,表示输入到编码器的长视频的特征,表示重构的长视频的特征,nt表示短视频的数量,nu表示长视频的数量。
4)将步骤3)得到的长视频自注意力特征和短视频自注意力特征输入到分类器进行分类,分别得到长视频的视频分类结果和短视频的视频分类结果;
5)根据3)得到的每一帧的自注意力权重向量和分解得到的视频向量,计算得到加权T-CAM的值,再将RGB和光流计算的T-CAM的结果融合,得到最终的视频的T-CAM的结果;这里首先通过分类器中分类层之前的全连接层的参数矩阵与编码器分解得到的视频相乘得到T-CAM值,然后通过自注意力权重与使用sigmoid函数对T-CAM进行分类得到的向量的每一个值相乘得到加权T-CAM值。
6)基于5)得到的T-CAM的结果,可以将长视频中的动作与背景区分开,将超过设定阈值位置保留(高于阈值的认为是动作,低于阈值的认为是背景),最后采用非极大值抑制的方法去除高度重叠的预测结果,这样最终得到视频中动作发生的时间段。
比较本发明方法与其他方法的结果,得到的行为识别准确率如表1所示,得到的行为定位的平均精度如表2所示:
表1.在THUMOS14数据集上的行为识别准确率
数据集 本发明方法 UntrimmedNets W-TALC
THUMOS14 0.879 0.822 0.856
表1中,UntrimmedNets和W-TALC是对比的方法,这两个方法都是弱监督的方法。因此可以用本发明的方法进行对比。
表2.在THUMOS14数据集上IoU=0.5时的行为定位的平均精度(mAP)
数据集 本发明方法 UntrimmedNets W-TALC
THUMOS14 23.65 13.7 16.9
根据表1和表2的结果,分别体现了本发明的方法能显著提升视频的行为识别和定位结果。
实例2基于三重编码的弱监督行为识别定位方法和装置
特征提取单元,用于对长视频和短视频进行特征提取;
三重编码器单元,用于对特征提取单元得到的特征进行编码,分别得到长视频和短视频的特有特征和公共特征;
解码器单元,用于对三重编码器得到的特征进行解码,重建视频特征;
行为识别单元,用于对提取的自注意力特征进行动作分类,得到长视频属于某一类的概率,即视频分类结果;
行为定位单元,用于根据自注意力权重计算得到的T-CAM值,区分视频中的动作或者背景,并且采用非极大值抑制进行后处理,提升行为定位的平均精度。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种基于三重编码的弱监督行为识别定位方法,其步骤包括:
1)利用训练样本集训练一个分类器以及编码器-解码器架构中的编码器和解码器:其中,对于训练样本集中每一对长视频和短视频;首先提取该对长视频和短视频的特征;训练样本集中包括多对长视频和短视频,同一对长视频和短视频属于同一视频;然后将长视频的特征输入编码器提取长视频特征的隐向量,将短视频的特征输入编码器提取短视频特征的隐向量;然后将长视频的隐向量输入到解码器中重建长视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新,将短视频的隐向量输入到解码器中重建短视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新;将长视频的隐向量输入到自注意力模块提取长视频的每一帧自注意力特征及其权重,将短视频的隐向量输入到自注意力模块提取短视频的每一帧自注意力特征及其权重;然后将得到的自注意力特征输入到分类器进行分类,得到长视频的视频分类结果和短视频的视频分类结果;
2)测试阶段,对于一待处理的视频,利用训练好编码器-解码器架构提取该视频的自注意力特征及其权重,然后利用训练好的分类器获取该视频的视频分类结果;然后根据该视频的自注意力特征权重和视频分类结果计算得到该视频的T-CAM值;然后根据该视频的T-CAM值将该视频中的动作与背景区分开,并得到该视频中动作发生的时间段。
2.如权利要求1所述的方法,其特征在于,所述特征包括RGB特征和光流特征。
3.如权利要求1或2所述的方法,其特征在于,采用ResNet101网络提取长视频和短视频的特征。
4.如权利要求1所述的方法,其特征在于,提取长视频特征的隐向量的方法为:首先将长视频特征分别输入到编码器Es、Ep,u,得到长视频的特有特征和公共特征;然后对长视频的特有特征和公共特征进行特征融合得到长视频特征的隐向量;其中,Es是对公共特征进行编码的特征编码器,Ep,u是对长视频的特有特征进行编码的特征编码器。
5.如权利要求1所述的方法,其特征在于,提取短视频特征的隐向量的方法为:首先将短视频特征分别输入到编码器Es、Ep,t,得到短视频的特有特征和公共特征;然后对短视频的特有特征和公共特征进行特征融合得到短视频特征的隐向量;其中,Es是对公共特征进行编码的特征编码器,Ep,t是对短视频的特有特征进行编码的特征编码器。
6.如权利要求1所述的方法,其特征在于,根据得到视频的T-CAM值将该视频中的动作与背景区分开,将超过设定阈值位置保留,最后采用非极大值抑制的方法去除重叠的预测结果,得到该视频中动作发生的时间段。
7.一种基于三重编码的弱监督行为识别定位装置,其特征在于,包括
特征提取单元,用于对视频进行特征提取;
编码器单元,用于对特征提取单元得到的特征进行编码,分别得到视频的特有特征和公共特征;
解码器单元,用于对编码器单元得到的特征进行解码,重建视频特征;
行为识别单元,用于对提取的自注意力特征进行动作分类,得到视频的视频分类结果;
行为定位单元,用于根据自注意力权重计算得到视频的T-CAM值,区分视频中的动作或者背景,并且采用非极大值抑制进行处理得到视频中动作实例发生的时间间隔。
8.如权利要求7所述的弱监督行为识别定位装置,其特征在于,利用训练样本集训练编码器单元和解码器单元;训练样本集中包括多对长视频和短视频,同一对长视频和短视频属于同一视频;其训练方法为:对于训练样本集中每一对长视频和短视频;首先提取该对长视频和短视频的特征;然后将长视频的特征输入编码器提取长视频特征的隐向量,将短视频的特征输入编码器提取短视频特征的隐向量;然后将长视频的隐向量输入到解码器中重建长视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新,将短视频的隐向量输入到解码器中重建短视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新;将长视频的隐向量输入到自注意力模块提取长视频的每一帧自注意力特征及其权重,将短视频的隐向量输入到自注意力模块提取短视频的每一帧自注意力特征及其权重;然后将得到的自注意力特征输入到分类器进行分类,得到长视频的视频分类结果和短视频的视频分类结果。
9.如权利要求8所述的弱监督行为识别定位装置,其特征在于,提取长视频特征的隐向量的方法为:首先将长视频特征分别输入到编码器Es、Ep,u,得到长视频的特有特征和公共特征;然后对长视频的特有特征和公共特征进行特征融合得到长视频特征的隐向量;其中,Es是对公共特征进行编码的特征编码器,Ep,u是对长视频的特有特征进行编码的特征编码器;提取短视频特征的隐向量的方法为:首先将短视频特征分别输入到编码器Es、Ep,t,得到短视频的特有特征和公共特征;然后对短视频的特有特征和公共特征进行特征融合得到短视频特征的隐向量;其中,Es是对公共特征进行编码的特征编码器,Ep,t是对短视频的特有特征进行编码的特征编码器。
10.如权利要求7或8所述的弱监督行为识别定位装置,其特征在于,所述特征包括RGB特征和光流特征。
CN201910610183.1A 2019-07-08 2019-07-08 一种基于三重编码的弱监督行为识别定位方法和装置 Pending CN110490055A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910610183.1A CN110490055A (zh) 2019-07-08 2019-07-08 一种基于三重编码的弱监督行为识别定位方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910610183.1A CN110490055A (zh) 2019-07-08 2019-07-08 一种基于三重编码的弱监督行为识别定位方法和装置

Publications (1)

Publication Number Publication Date
CN110490055A true CN110490055A (zh) 2019-11-22

Family

ID=68546665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910610183.1A Pending CN110490055A (zh) 2019-07-08 2019-07-08 一种基于三重编码的弱监督行为识别定位方法和装置

Country Status (1)

Country Link
CN (1) CN110490055A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539469A (zh) * 2020-04-20 2020-08-14 东南大学 一种基于视觉自注意力机制的弱监督细粒度图像识别方法
CN111985333A (zh) * 2020-07-20 2020-11-24 中国科学院信息工程研究所 一种基于图结构信息交互增强的行为检测方法及电子装置
CN112927266A (zh) * 2021-03-01 2021-06-08 中国科学技术大学 基于不确定性引导训练的弱监督时域动作定位方法及系统
CN113673557A (zh) * 2021-07-12 2021-11-19 浙江大华技术股份有限公司 特征处理方法、动作定位方法及相关设备
CN114022827A (zh) * 2022-01-05 2022-02-08 阿里巴巴(中国)有限公司 产线作业管理与视频处理方法、装置、设备及存储介质
CN114117126A (zh) * 2021-12-02 2022-03-01 聚好看科技股份有限公司 一种视频推荐方法及显示设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409257A (zh) * 2018-10-11 2019-03-01 北京大学深圳研究生院 一种基于弱监督学习的视频时序动作检测方法
CN109522867A (zh) * 2018-11-30 2019-03-26 国信优易数据有限公司 一种视频分类方法、装置、设备和介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409257A (zh) * 2018-10-11 2019-03-01 北京大学深圳研究生院 一种基于弱监督学习的视频时序动作检测方法
CN109522867A (zh) * 2018-11-30 2019-03-26 国信优易数据有限公司 一种视频分类方法、装置、设备和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
P. NGUYEN等: ""Weakly Supervised Action Localization by Sparse Temporal Pooling Network"", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
刘志康: ""基于视频的人类行为识别方法研究"", 《中国优秀博硕士学位论文全文数据库(博士)·信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539469A (zh) * 2020-04-20 2020-08-14 东南大学 一种基于视觉自注意力机制的弱监督细粒度图像识别方法
CN111539469B (zh) * 2020-04-20 2022-04-08 东南大学 一种基于视觉自注意力机制的弱监督细粒度图像识别方法
CN111985333A (zh) * 2020-07-20 2020-11-24 中国科学院信息工程研究所 一种基于图结构信息交互增强的行为检测方法及电子装置
CN111985333B (zh) * 2020-07-20 2023-01-17 中国科学院信息工程研究所 一种基于图结构信息交互增强的行为检测方法及电子装置
CN112927266A (zh) * 2021-03-01 2021-06-08 中国科学技术大学 基于不确定性引导训练的弱监督时域动作定位方法及系统
CN113673557A (zh) * 2021-07-12 2021-11-19 浙江大华技术股份有限公司 特征处理方法、动作定位方法及相关设备
CN114117126A (zh) * 2021-12-02 2022-03-01 聚好看科技股份有限公司 一种视频推荐方法及显示设备
CN114022827A (zh) * 2022-01-05 2022-02-08 阿里巴巴(中国)有限公司 产线作业管理与视频处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110490055A (zh) 一种基于三重编码的弱监督行为识别定位方法和装置
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
De Melo et al. Encoding temporal information for automatic depression recognition from facial analysis
Liu et al. Learning discriminative representations from RGB-D video data
Sargano et al. A comprehensive review on handcrafted and learning-based action representation approaches for human activity recognition
CN112329685A (zh) 一种融合型卷积神经网络人群异常行为检测的方法
CN104281853A (zh) 一种基于3d卷积神经网络的行为识别方法
CN110827505A (zh) 一种基于深度学习的烟雾分割方法
CN109034092A (zh) 用于监控系统的异常事件检测方法
CN111985333B (zh) 一种基于图结构信息交互增强的行为检测方法及电子装置
Gong et al. Local distinguishability aggrandizing network for human anomaly detection
CN107423725A (zh) 一种基于混合时间卷积和循环网络的视频动作分割方法
CN111914676A (zh) 人体摔倒检测方法、装置、电子设备和存储介质
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
Salem et al. Semantic image inpainting using self-learning encoder-decoder and adversarial loss
Zeng et al. Occlusion‐invariant face recognition using simultaneous segmentation
Hu et al. Deep learning for distinguishing computer generated images and natural images: A survey
CN107392229A (zh) 一种基于最面向社会关系抽取的网络表示方法
Adewopo et al. Baby physical safety monitoring in smart home using action recognition system
CN113822134A (zh) 一种基于视频的实例跟踪方法、装置、设备及存储介质
Harrington et al. Exploring the perceptual straightness of adversarially robust and biologically-inspired visual representations
Mounir et al. Self-supervised temporal event segmentation inspired by cognitive theories
CN113505729A (zh) 基于人体面部运动单元的面试作弊检测方法及系统
Colque Robust approaches for anomaly detection applied to video surveillance
Wally et al. Occlusion Aware Student Emotion Recognition based on Facial Action Unit Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191122