CN111985333A - 一种基于图结构信息交互增强的行为检测方法及电子装置 - Google Patents

一种基于图结构信息交互增强的行为检测方法及电子装置 Download PDF

Info

Publication number
CN111985333A
CN111985333A CN202010698168.XA CN202010698168A CN111985333A CN 111985333 A CN111985333 A CN 111985333A CN 202010698168 A CN202010698168 A CN 202010698168A CN 111985333 A CN111985333 A CN 111985333A
Authority
CN
China
Prior art keywords
video
features
self
dimensional
sample image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010698168.XA
Other languages
English (en)
Other versions
CN111985333B (zh
Inventor
张晓宇
石海超
王树鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202010698168.XA priority Critical patent/CN111985333B/zh
Publication of CN111985333A publication Critical patent/CN111985333A/zh
Application granted granted Critical
Publication of CN111985333B publication Critical patent/CN111985333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Abstract

本发明提供一种基于图结构信息交互增强的行为检测方法及电子装置,包括提取一视频的n维视频特征,计算该n维视频特征基于自注意力的n维视频特征表达及各视频特征表达维度的自注意力权重向量,并根据n维视频特征表达,构建一图特征表达;将图特征表达输入一已训练的对抗网络,得到视频特征向量,并对视频特征向量进行分类;根据分类结果及自注意力权重向量,获取该视频的帧类别激活结果,分辨视频中的各动作或背景,得到所述视频中各动作的发生时间段。本发明可对复杂的视频动作和背景的视觉‑运动相关性灵活而明确的建模,更好的学习长视频特征,大大降低了计算复杂度以及时序标注的时间。

Description

一种基于图结构信息交互增强的行为检测方法及电子装置
技术领域
本发明属于视频分析领域,涉及视频行为识别和检测技术,具体涉及一种基于图结构信息交互增强的行为检测方法及电子装置。
背景技术
视频行为识别和检测技术,是视频分析的主要分支之一。视频分析就是使用计算机视觉分析技术,通过将场景中背景和目标分离进而分析并追踪摄像机场景内目标。由于互联网视频数据的不断涌现,视频内容分析在工业和学术领域吸引了广泛的注意力。视频内容分析一个重要的分支是行为识别,行为识别通常是致力于对人工裁剪好的视频片段进行分类。然而,大多数现实世界的视频都是长视频,并且包含多个动作实例,同时包含不相关的背景场景和活动。因此,学术和工业领域也开始将注意力放在时序行为检测的任务上。时序行为检测致力于检测长视频中的动作实例,包括时序的动作边界和实例类别。对于时序行为检测的任务可以应用到监控视频分析和智能家居护理等任务上。
行为检测可以看作是每一张图像进行目标检测的时序版本,单张图像的目标检测和视频的行为检测的目标都是检测边界以及多个实例的类别信息(时序上的动作和空间上物体)。目前大多数目标检测的模型是基于R-CNN以及其变体进行,这些模型采用的是通过对边界的候选区域进行分类并且检测的框架。受到R-CNN的启发,很多时序行为检测的方法采用相似的框架,对候选区域方法生成的时序动作实例进行分类,或者使用简单的滑动窗口的方法。这些框架有很多局限性:首先,候选区域的生成和分类模型是分别进行训练的;其次,候选区域生成方法或者滑动窗口方法需要额外的时间消耗;由滑动窗口方法产生的动作实例的时序动作边界通常是近似的,而不是精确的;同时,因为滑动窗口的尺度大小不一致,对于预测各种各样尺度的实例也不灵活;对大量训练数据进行时序标注需要耗费大量时间,因此可以采用弱监督方法进行训练。
发明内容
本发明的目的在于提供一种基于图结构信息交互增强的行为检测方法及电子装置,利用图神经网络,构建长视频的图特征表达,并且通过额外的图像特征信息,使用生成对抗网络进行知识迁移,在这个过程中,仅仅利用长视频的视频级别的标注信息和图像的类别标签,不使用长视频的时序标签,使用弱监督学习提高长视频的行为识别和定位能力。
本发明采用的技术方案如下:
一种基于图结构信息交互增强的行为检测方法,其步骤包括:
1)提取一视频的n维视频特征,计算该n维视频特征基于自注意力的n维视频特征表达及各视频特征表达维度的自注意力权重向量,并根据n维视频特征表达,构建一图特征表达;
2)将图特征表达输入一已训练的对抗网络,得到视频特征向量,并对视频特征向量进行分类;
3)根据分类结果及自注意力权重向量,获取该视频的帧类别激活结果,分辨视频中的各动作或背景,得到所述视频中各动作的发生时间段;
其中,通过以下步骤训练对抗网络:
a)提取样本视频集中各样本视频的n维视频样本特征,计算该n维样本视频特征基于自注意力的n维样本视频特征表达,构建若干样本图特征表达;
b)获取每一样本图像包含一动作的样本图像数据集,提取每一样本图像数据的样本图像特征,得到若干样本图像特征;
c)将若干的样本图特征表达与样本图像特征输入所述对抗网络,对所述对抗网络进行训练。
进一步地,n维视频特征包括动作RGB特征、背景RGB特征、动作光流特征和背景光流特征;通过以下步骤得到动作RGB特征、背景RGB特征、动作光流特征和背景光流特征:
1)将视频处理为若干图片,并对各图片进行统一剪裁操作;
2)通过一膨胀3D卷积网络,提取视频的RGB特征与光流特征;
3)依据RGB特征、光流特征及全变分L1算法得到视频的动作RGB特征、背景RGB特征、动作光流特征与背景光流特征。
进一步地,对各图片进行统一剪裁操作的方法包括中心裁剪操作。
进一步地,通过n维视频特征表达与伪逆计算,获取各视频特征表达维度的自注意力权重向量。
进一步地,将n维视频特征表达输入一两层GRU网络,构建所述图特征表达。
进一步地,所述对抗网络包括循环生成对抗网络;
进一步地,通过以下步骤获取该视频的帧类别激活结果:
1)根据分类结果及自注意力权重向量,计算各维视频特征相应的帧类别激活得分;
2)根据帧类别激活得分,将各维视频特征相应的帧类别激活进行融合,获取该视频的帧类别激活结果。
进一步地,依据残差网络101网络,提取每一样本图像数据的样本图像特征;所述样本图像特征包括RGB图像特征。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
利用本发明的方法可以对长视频进行动作分类并定位动作发生的时间间隔,与现有技术相比具有以下优点:
1、本发明提出一种基于图神经网络对视频特征建模的方法,从而可以对复杂的视频动作和背景的视觉-运动相关性灵活而明确的建模;
2、本发明使用生成对抗网络框架进行特征迁移,整合了长视频和图像数据集的特征,对长视频进行特征增强,更好的学习长视频特征;
3、本发明使用弱监督学习机制学习模型,仅仅使用视频级别的标签进行训练,不使用时序的标签,大大降低了计算复杂度以及时序标注的时间。
附图说明
图1是本发明的方法流程图。
图2是本发明的模型训练流程图
具体实施方式
下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明提供的基于图结构表达和图像-视频增强的弱监督行为定位方法,适用于对长视频进行行为识别和定位,其主要步骤包括:首先对视频进行预处理,将图片进行统一裁剪操作(比如进行中心裁剪(center cropped)操作,统一裁剪成224×224的大小);接着,使用膨胀3D卷积网络(Inflated 3D ConvNet(I3D))提取长视频的RGB和光流特征,然后使用全变分L1(Total VariationL1,TV-L1)算法将长视频的动作和背景分离,得到长视频的动作和背景片段的RGB和光流的视频级别的特征,一共得到4种视频特征,分别是动作RGB特征,动作光流特征,背景RGB特征和背景光流特征。然后对于每一种视频特征,输入到自注意力模块中,分别得到动作和背景的RGB和光流特征的自注意力机制的特征表达。紧接着,将这4种特征表达输入到图神经网络里构建图特征表达。另一方面,使用ResNet101提取图像数据集的特征,将得到的图像特征和视频的图特征表达输入到生成对抗网络里,训练模型,进一步进行行为识别,得到视频行为识别的结果,根据得到的行为识别的结果和计算得到的自注意力权重,对视频的动作实例进行定位。
本发明方法分为训练和测试两部分,测试阶段如图1所示,需要经过自注意力模块(A Structured Self-attentive Sentence Embedding,in ICLR 2017.)、图神经网络和分类器,就可以得到视频的分类结果和自注意力权重,并且根据得到的自注意力权重和分类结果进行视频动作定位。而训练阶段如图2所示,训练自注意力模块,图神经网络,生成对抗网络和一个分类器。。
本发明的一种基于图结构表达和图像-视频增强的弱监督行为定位方法,包括以下步骤:
1)首先提取长视频的特征的特征;
进一步地,所述提取长视频特征包括RGB和光流特征;
进一步地,所述提取长视频采用I3D网络;
2)使用TV-L1算法对长视频特征的动作和背景分离,得到动作RGB特征,动作光流特征,背景RGB特征和背景光流特征。紧接着,将4种特征分别输入到自注意力模块,提取自注意力特征。所述提取的视频自注意力特征向量包括:
a)对于长视频特征,将4种自注意力特征输入到图神经网络,得到长视频的图结构特征表达;
进一步地,所述图神经网络为两层GRU;
3)将得到的长视频的图结构特征表达输入到通过样本视频集与样本图像极训练的对抗网络,进行特征迁移。
进一步地,所述生成对抗网络为循环生成对抗网络(CycleGAN);
进一步地,通过以下步骤训练对抗网络:
a)提取样本视频集中各样本视频的n维视频样本特征,计算该n维样本视频特征基于自注意力的n维样本视频特征表达,构建若干样本图特征表达;
b)获取每一样本图像包含一动作的样本图像数据集,提取每一样本图像数据的样本图像特征,得到若干样本图像特征;
c)将若干的样本图特征表达与样本图像特征输入所述对抗网络,对所述对抗网络进行训练;
进一步地,提取所述样本图像数据集特征采用残差网络101(ResNet101)网络;
进一步地,输入到自注意力模块的特征包括四部分,动作RGB特征,动作光流特征,背景RGB特征和背景光流特征,得到4种特征的自注意力特征表示。
进一步地,基于得到的自注意力权重向量和对视频的分类结果,其中自注意力权重向量是依据自注意力模块提取的特征,通过伪逆(Moore-Penrose)计算得到。
进一步地,基于T-CAM(时序类别激活映射),提出一种基于帧类别激活(FCA)的方法,计算四种特征分别对应的得分,以为了得到更加精确的动作时间段,将超过设定阈值的帧保留,并得到最终的行为定位的结果。
实例1基于图结构表达和图像-视频增强的弱监督行为定位方法和装置
以THUMOS14数据集为例:
1)首先使用I3D提取长视频数据集的RGB和光流特征;
2)使用TV-L1算法将I3D提取的RGB和光流特征进行动作和背景分离,分别得到动作和背景的RGB特征和光流特征,共4种视频特征;
3)将2)得到的视频特征输入到自注意力模块,提取自注意力特征;
4)将3)得到的4种自注意力特征输入到图神经网络,进行图结构的建模,得到图结构的特征表示;
5)将4)得到的图结构的特征表示,输入到通过样本视频集的图结构特征表示与样本图像数据集的样本图像特征训练的对抗网络,进行特征迁移,得到更加鲁棒的视频特征表示;
使用ResNet101提取样本图像数据集的样本图像特征;
6)将5)得到的视频特征向量输入到分类器进行分类,得到视频分类结果;
7)根据4)得到的自注意力权重向量和6)的视频分类结果,计算帧类别激活(FCA)的得分,再将动作和背景的RGB和光流计算的FCA的结果融合,得到最终的视频的FCA的结果;
8)基于7)得到的FCA的结果,可以将长视频中的动作或者背景区分开,将超过阈值位置保留,最后采用非极大值抑制的方法去除高度重叠的预测结果,这样最终得到视频中各动作发生的时间段。
比较本发明方法与其他方法的结果,得到的行为识别准确率如表1所示,得到的行为定位的平均精度如表2所示:
表1.在THUMOS14数据集上的行为识别准确率
数据集 本发明方法 W-TALC TSRNet
THUMOS14 0.893 0.856 0.871
表1中,W-TALC(Weakly-Supervised TemporalActivity Localization andClassification,in ECCV 2018.)和TSRNet(Learning Transferable Self-AttentiveRepresentations for Action Recognition in Untrimmed Videos with WeakSupervision,inAAAI 2019.)是对比的方法,这两个方法都是弱监督的方法。因此可以用本发明的方法进行对比。
表2.在THUMOS14数据集上IoU=0.5时的行为定位的平均精度(mAP)
数据集 本发明方法 W-TALC TSRNet
THUMOS14 26.02 16.9 18.6
根据表1和表2的结果,分别体现了本发明的方法能显著提升视频的行为识别和定位结果。
实例2基于图结构表达和图像-视频增强的弱监督行为定位方法和装置
特征提取单元,用于对长视频和图像数据集进行特征提取;
自注意力单元,用于对特征提取单元得到的特征进行自注意力特征的提取,得到更加紧致的特征表达;
图神经网络单元,用于对自注意力模块提取的特征进行图建模,得到图结构特征;
生成对抗网络单元,用于对得到的图像特征和视频的图结构特征进行特征迁移,让长视频特征更具有判别性;
行为识别单元,用于对经过生成对抗网络的得到的视频特征向量进行动作分类,得到长视频属于某一类的概率;
行为定位单元,用于根据图结构表达通过伪逆计算得到的自注意力权重向量和行为识别分类结果计算得到的FCA值,区分视频中的动作或者背景,并且采用非极大值抑制进行后处理,提升行为定位的平均精度。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种基于图结构信息交互增强的行为检测方法,其步骤包括:
1)提取一视频的n维视频特征,计算该n维视频特征基于自注意力的n维视频特征表达及各视频特征表达维度的自注意力权重向量,并根据n维视频特征表达,构建一图特征表达;
2)将图特征表达输入一已训练的对抗网络,得到视频特征向量,并对视频特征向量进行分类;
3)根据分类结果及自注意力权重向量,获取该视频的帧类别激活结果,分辨视频中的各动作或背景,得到所述视频中各动作的发生时间段;
其中,通过以下步骤训练对抗网络:
a)提取样本视频集中各样本视频的n维视频样本特征,计算该n维样本视频特征基于自注意力的n维样本视频特征表达,构建若干样本图特征表达;
b)获取每一样本图像包含一动作的样本图像数据集,提取每一样本图像数据的样本图像特征,得到若干样本图像特征;
c)将若干的样本图特征表达与样本图像特征输入所述对抗网络,对所述对抗网络进行训练。
2.如权利要求1所述的方法,其特征在于,n维视频特征包括动作RGB特征、背景RGB特征、动作光流特征和背景光流特征;通过以下步骤得到动作RGB特征、背景RGB特征、动作光流特征和背景光流特征:
1)将视频处理为若干图片,并对各图片进行统一剪裁操作;
2)通过一膨胀3D卷积网络,提取视频的RGB特征与光流特征;
3)依据RGB特征、光流特征及全变分L1算法得到视频的动作RGB特征、背景RGB特征、动作光流特征与背景光流特征。
3.如权利要求2所述的方法,其特征在于,对各图片进行统一剪裁操作的方法包括中心裁剪操作。
4.如权利要求1所述的方法,其特征在于,通过n维视频特征表达与伪逆计算,获取各视频特征表达维度的自注意力权重向量。
5.如权利要求1所述的方法,其特征在于,将n维视频特征表达输入一两层GRU网络,构建所述图特征表达。
6.如权利要求1所述的方法,其特征在于,所述对抗网络包括循环生成对抗网络;
7.如权利要求1所述的方法,其特征在于,通过以下步骤获取该视频的帧类别激活结果:
1)根据分类结果及自注意力权重向量,计算各维视频特征相应的帧类别激活得分;
2)根据帧类别激活得分,将各维视频特征相应的帧类别激活进行融合,获取该视频的帧类别激活结果。
8.如权利要求1所述的方法,其特征在于,依据残差网络101网络,提取每一样本图像数据的样本图像特征;所述样本图像特征包括RGB图像特征。
9.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。
10.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。
CN202010698168.XA 2020-07-20 2020-07-20 一种基于图结构信息交互增强的行为检测方法及电子装置 Active CN111985333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010698168.XA CN111985333B (zh) 2020-07-20 2020-07-20 一种基于图结构信息交互增强的行为检测方法及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010698168.XA CN111985333B (zh) 2020-07-20 2020-07-20 一种基于图结构信息交互增强的行为检测方法及电子装置

Publications (2)

Publication Number Publication Date
CN111985333A true CN111985333A (zh) 2020-11-24
CN111985333B CN111985333B (zh) 2023-01-17

Family

ID=73439249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010698168.XA Active CN111985333B (zh) 2020-07-20 2020-07-20 一种基于图结构信息交互增强的行为检测方法及电子装置

Country Status (1)

Country Link
CN (1) CN111985333B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112098873A (zh) * 2020-08-17 2020-12-18 四川大学 基于充电电压曲线几何特征的锂电池健康状态估计方法
CN112329738A (zh) * 2020-12-01 2021-02-05 厦门大学 基于显著片段采样的长视频动作识别方法
CN117829265A (zh) * 2024-03-01 2024-04-05 国网智能电网研究院有限公司 一种基于中介空间构建的电力跨模态双向知识迁移方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN110490055A (zh) * 2019-07-08 2019-11-22 中国科学院信息工程研究所 一种基于三重编码的弱监督行为识别定位方法和装置
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111291699A (zh) * 2020-02-19 2020-06-16 山东大学 基于监控视频时序动作定位和异常检测的变电站人员行为识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN110490055A (zh) * 2019-07-08 2019-11-22 中国科学院信息工程研究所 一种基于三重编码的弱监督行为识别定位方法和装置
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111291699A (zh) * 2020-02-19 2020-06-16 山东大学 基于监控视频时序动作定位和异常检测的变电站人员行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAISUKE MIKI 等: "Weakly Supervised Graph Convolutional Neural Network for Human Action Localization", 《IEEE》 *
PHUC NGUYEN 等: "Weakly Supervised Action Localization by Sparse Temporal Pooling Network", 《ARXIV》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112098873A (zh) * 2020-08-17 2020-12-18 四川大学 基于充电电压曲线几何特征的锂电池健康状态估计方法
CN112098873B (zh) * 2020-08-17 2021-06-01 四川大学 基于充电电压曲线几何特征的锂电池健康状态估计方法
CN112329738A (zh) * 2020-12-01 2021-02-05 厦门大学 基于显著片段采样的长视频动作识别方法
CN117829265A (zh) * 2024-03-01 2024-04-05 国网智能电网研究院有限公司 一种基于中介空间构建的电力跨模态双向知识迁移方法

Also Published As

Publication number Publication date
CN111985333B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
Mathe et al. Dynamic eye movement datasets and learnt saliency models for visual action recognition
Chen et al. Embedding attention and residual network for accurate salient object detection
Croitoru et al. Unsupervised learning from video to detect foreground objects in single images
CN111985333B (zh) 一种基于图结构信息交互增强的行为检测方法及电子装置
US20210326638A1 (en) Video panoptic segmentation
CN109726671B (zh) 从全局到类别特征表达学习的动作识别方法和系统
CN114049581A (zh) 一种基于动作片段排序的弱监督行为定位方法和装置
CN111061898A (zh) 图像处理方法、装置、计算机设备及存储介质
CN111523421A (zh) 基于深度学习融合各种交互信息的多人行为检测方法及系统
CN108038515A (zh) 无监督多目标检测跟踪方法及其存储装置与摄像装置
Simon et al. Visual event recognition using decision trees
CN115115825B (zh) 图像中的对象检测方法、装置、计算机设备和存储介质
CN113255557A (zh) 一种基于深度学习的视频人群情绪分析方法及系统
Vainstein et al. Modeling video activity with dynamic phrases and its application to action recognition in tennis videos
CN111368634A (zh) 基于神经网络的人头检测方法、系统及存储介质
Cholakkal et al. A classifier-guided approach for top-down salient object detection
CN113822134A (zh) 一种基于视频的实例跟踪方法、装置、设备及存储介质
CN107886060A (zh) 基于视频的行人自动检测与跟踪方法
CN114821424A (zh) 视频分析方法、视频分析装置、计算机设备、存储介质
CN114022698A (zh) 一种基于二叉树结构的多标签行为识别方法及装置
CN114092746A (zh) 一种多属性识别方法、装置、存储介质及电子设备
Moayedi et al. Human action recognition: Learning sparse basis units from trajectory subspace
Nguyen et al. Classification and temporal localization for human-human interactions
CN116129333B (zh) 一种基于语义探索的开集动作识别方法
Deniz et al. When Do Neuromorphic Sensors Outperform cameras? Learning from Dynamic Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant