CN112990122B - 一种基于视频基础单元分析的复杂行为识别方法 - Google Patents

一种基于视频基础单元分析的复杂行为识别方法 Download PDF

Info

Publication number
CN112990122B
CN112990122B CN202110448783.XA CN202110448783A CN112990122B CN 112990122 B CN112990122 B CN 112990122B CN 202110448783 A CN202110448783 A CN 202110448783A CN 112990122 B CN112990122 B CN 112990122B
Authority
CN
China
Prior art keywords
video
vectors
vector
network
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110448783.XA
Other languages
English (en)
Other versions
CN112990122A (zh
Inventor
李太豪
马诗洁
谢冰
刘昱龙
郑书凯
裴冠雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110448783.XA priority Critical patent/CN112990122B/zh
Publication of CN112990122A publication Critical patent/CN112990122A/zh
Application granted granted Critical
Publication of CN112990122B publication Critical patent/CN112990122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视频基础单元分析的复杂行为识别方法。该方法将视频的行为识别拆分为时序上的原子行为,空间上基于目标检测和场景识别提取视频中的物体和背景信息,并将提取的语义信息送入时序模型进行分析。该方法相比以往的视频行为识别,将视频在时间和空间上进行分解为基础任务进行检测和识别,可解释性更强。同时基于此方法,可以针对不同的任务情况,选择性的提取需要的基础单元信息,通过拆分的方法增强了复杂行为识别任务的灵活性。

Description

一种基于视频基础单元分析的复杂行为识别方法
技术领域
本发明涉及计算机视觉领域,尤其是涉及了一种基于视频基础单元分析的复杂行为识别方法。
背景技术
通过视频理解人类行为是计算机视觉领域的一个基础研究问题。在人机交互,视频推荐等方面具有广阔的应用前景。
目前的行为识别主要分为两种方法,基于骨骼点的行为识别方法和基于视频的行为识别方法。基于骨骼点的行为识别方法,可以减少外界环境的干扰,但是缺乏同环境和物体的交互信息,所以复杂场景下识别率有限。基于视频的行为识别方法,包括two-stream方法,3DCNN的方法,上述方法可以提取复杂的语义信息,但是容易受到周围复杂环境,光照等信息的干扰。基于视频的行为识别方法由于视频中包含的信息过于复杂,在进行视频行为识别时,很难关注到关键信息,同时不同人的同一种行为复杂多样,同一种行为类内差异大。
发明内容
为解决现有技术的不足,实现复杂行为识别的目的,本发明采用如下的技术方案:
一种基于视频基础单元分析的复杂行为识别方法,包括如下步骤:
步骤一:将复杂行为的视频序列V,在时间序列上进行分段,分为X个子视频v i i=0,…,X-1;
步骤二:对各个子视频进行原子行为识别,输出原子行为向量;对各个子视频的中间帧进行目标检测,输出目标检测向量;对各个子视频的中间帧进行场景识别,输出场景识别向量,包括如下步骤:
步骤2.1,将X个子视频分别送到slow-fast行为检测网络中,进行原子行为识别;
步骤2.2,对于每个子视频,输出结果为N个场景中人的检测框,每个检测框对应n个原子行为的概率,将N个长度为n的向量在维度N上进行深度自注意力变换网络(max)操作,作为子视频经过原子行为识别网络的识别结果,输出原子行为向量A i
步骤2.3,子视频v i 包含s个图像序列,取出[s/2]序列位置处所对应的图像;
步骤2.4,将图像放入Yolov3目标检测网络中进行通用目标检测,输出M个目标检测框坐标,并且输出M个维度为L的向量,每个向量代表预测为各个物体的置信度,输出目标检测向量D i
步骤2.5,将图像放入Resnet分类网络中进行通用场景分类,分类总数为E,经过分类模型后输出X个维度为E的向量,向量的每个维度表示分类为当前种类的置信度值,输出场景识别向量C i
步骤三:将原子行为向量、目标检测向量和场景识别向量,进行连接操作生成向量F;
步骤四:向量F与位置信息相加,利用深度自注意力变换网络(transformer)模型的编码(encoder)模块进行分类。
进一步地,所述步骤2.2中的原子行为识别包括如下步骤:对于每个子视频v i i=0,…,X-1,每个v i 子视频序列送入到SlowFast行为检测网络中,生成N个包围框的坐标,同时生成N个维度为n的向量,每个向量代表预测为原子行为的置信度,对视频V中的的X个子视频处理后,输出结果如下:
Figure 889828DEST_PATH_IMAGE001
=(a k0 ,a k1 ,,a kn ),i=0,1…,X-1,k=0,1,…,N-1
a表示N个维度为n的向量,对a在维度N上进行最大值(max)操作,输出向量:
A i =(max(a 00 ,a 10 ,,a (N-1)0 ),max(a 01 ,a 11 ,,a (N-1)1 ),…, max(a 0(n-1),a 1(n-1),,a (N-1)(n-1))),i=0,1…,X-1。
所述步骤2.2中的原子行为构成一组原子行为数据集,该原子行为数据集的出现为复杂行为的构建提供了理论依据。所述原子行为在同一个人身上同时发生,并且属于快速的动作行为。
进一步地,所述步骤2.4中的目标检测包括如下步骤:对于每个子视频的中间图像I i ,i=0,…,X-1,将每个v i 子视频序列送入到Yolov3目标检测网络中,检测器可检测的目标类别总数量为L,生成M个包围框的坐标,同时生成M个维度为L的向量,每个向量代表了预测为各个目标的置信度,对于每个图像I i 处理后,整个视频的输出结果如下:
Figure 275810DEST_PATH_IMAGE002
=(d k0 ,d k1 ,,d kL-1 ),i=0,1…,X-1,k=0,1,…,M-1
d表示M个维度为L的向量,对d在维度M上进行最大值(max)操作,输出向量:
D i =(max(d 00 ,d 10 ,,d (M-1)0 ),max(d 01 ,d 11 ,,d (M-1)1 ),…, max(d 0(L-1),d 1(L-1),,d (M-1) (L-1))),i=0,1…,X-1。
进一步地,所述步骤2.5中的场景分类,输出结果如下:
C i =(c 0 ,c 1 ,,c E-1 ),i=0,1,…,X-1
c表示X个维度为E的向量,向量的每个维度表示分类为当前种类的置信度值。
进一步地,所述步骤三中,将输出向量A i ,D i ,C i ,i=0,1,…,X-1,进行concat拼接操作,生成向量F i ,i=0,1,…,X-1,所述concat拼接操作如下:
F i =[a 0 ,a 1 ,,a n-1 ,d 0 ,d 1 ,,d L-1 ,c 0 ,c 1 ,,c E-1 ],i=0,1,…,X-1
a表示N个维度为n的向量,行为检测网络中,生成N个包围框的坐标,同时生成N个维度为n的向量,每个向量代表预测为原子行为的置信度;d表示M个维度为L的向量,目标检测网络中,检测的目标类别总数量为L,生成M个包围框的坐标,同时生成M个维度为L的向量,每个向量代表了预测为各个目标的置信度;c表示X个维度为E的向量,分类网络中进行场景分类,分类总数为E,输出X个维度为E的向量,向量的每个维度表示分类为当前种类的置信度值。
进一步地,所述步骤四中,将生成的F i ,i=0,1,…,X-1作为词嵌入(wordembedding)与位置嵌入(Positional Embedding,即位置编码向量)相加后,得到整个视频高级语义表征,输入到深度自注意力变换网络(tranformer)模型的编码(encoder)模块中进行分类,因为transformer模型的自注意力(self-attention)层并没有包含位置信息。
进一步地,所述位置嵌入(Positional Embedding)的计算公式如下:
PE (pos,2i)=sin(pos/1000 2i/d model )
PE (pos,2i+1)=cos(pos/1000 2i/d model )
pos是当前子视频在总视频中的位置,与时序相关,i是指向量中每个值的索引(index),偶数位置,使用正弦编码,在奇数位置,使用余弦编码,d model表示词嵌入(wordembedding)的向量长度。
进一步地,所述步骤2.1中的行为检测网络是SlowFast行为识别网络,使用慢速高分辨率来分析视频中的静态内容,快速低分辨率来分析视频中的动态内容,其中慢通道(Slow pathway)帧率低,用于提取空间语义信息,网络宽度大,快通道(Fast pathway)帧率低,用于提取时序动作信息,网络宽度小,将子视频以不同的采样频率分别送入到慢通道(Slow pathway)和快通道(Fast pathway)中进行处理,获得该子视频的原子行为识别结果。
进一步地,所述步骤2.4中的目标检测网络是一种单阶段(one-stage)的Yolov3目标检测网络,包括前置网络CNN用于提取语义特征,以及三个不同尺度的Yolo算法的头部预测(Yolo head)模块对目标框进行预测和回归,网络中基于FPN的方式,对不同尺度的语义特征进行融合,将低尺度的低级细节特征和高尺度的高级语义特征融合,增强特征的语义表达能力,提高了目标检测的准确率。
进一步地,所述步骤2.5中的分类网络是Resnet分类网络,Resnet基于残差学习的方法解决了在加深网络的情况下不会发生梯度消失的问题。
本发明的优势和有益效果在于:
本发明相比以往的视频行为识别,将视频在时间和空间上进行分解为基础任务进行检测和识别,可解释性更强。同时基于本发明的方法,可以针对不同的任务情况,选择性的提取需要的基础单元信息,通过拆分的方法增强了复杂行为识别任务的灵活性。
附图说明
图1是本发明的方法流程图。
图2是本发明中SlowFast网络结构图。
图3是本发明中Yolov3网络结构图。
图4是本发明中Resnet网络结构图。
图5是本发明中transformer encoder基础结构图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
现实场景中的行为往往是由时间序列上的原子行为按照时间关系构成的。对于人人交互,人物交互等行为,场景中的物体对于行为的理解也会起到很重要的作用,同时场景中物体信息,动作发生的场景信息也跟行为有一定程度上的关联。基于上述理论,提出一种基础视频基础单元分析理解的视频复杂行为识别方法,该方法将视频的行为识别拆分为时序上的原子行为,空间上基于目标检测和场景识别提取视频中的物体和背景信息,并将提取的语义信息送入时序模型进行分析,如图1所示,包括如下几个步骤:
步骤101、将视频均匀切分为X个子视频。视频总图像序列数目为S,将视频均匀分为X段,每个子视频所含的图像序列数目为Z,则S = Z*X。
步骤102、对子视频进行三个特征提取的操作。步骤101的子视频分别输入到行为识别网络,目标检测网络和场景分类网络中,进行特征提取。
利用行为识别网络对子视频中的原子行为进行识别。其中的行为识别网络详情如下:SlowFast是一个行为识别网络,如图2所示,使用了慢速高分辨率来分析视频中的静态内容,一个快速低分辨率来分析视频中的动态内容。其中Slow pathway帧率低,用于提取空间语义信息,网络宽度大。Fast pathway帧率低,主要用来提取时序动作信息,网络宽度小。将子视频以不同的采样频率分别送入到Slow pathway和Fast Pathway中进行处理,获得该子视频的原子行为识别结果。将每个子视频输入到Slow fast网络中分别进行原子行为识别,生成N个包围框的坐标,同时生成N个维度为80的向量,每个向量代表了预测为原子行为的置信度。对这N个维度为80的向量进行最大值(max)操作,输出向量A i ,i=0,…,X-1。
利用Yolov3网络对子视频的中间帧进行目标检测。其中Yolov3的目标检测网络详情如下:Yolov3是一种单阶段(one-stage)的目标检测算法,网络流程如图3所示。主要包括前置网络CNN提取语义特征和三个不同尺度的Yolo算法的头部预测(Yolo head)模块对目标框进行预测和回归。网络中基于FPN的方式,对不同尺度的语义特征进行融合,将低尺度的低级细节特征和高尺度的高级语义特征融合,增强特征的语义表达能力,提取提高了目标检测的准确率。
本发明中,分别将子视频的中间帧送入到Yolov3网络结构中,生成M个包围框的坐标,同时生成M个维度为L的向量,每个向量代表了预测为各个目标的置信度。然后对这M个维度为L的向量进行max操作,输出向量D i ,i=0,1…,X-1。
利用Resnet网络对子视频的中间帧进行场景分类。其中Resnet网络结构如图4所示。深度学习网络中会存在网络越深,梯度消失的问题,Resnet基于残差学习的方法解决了在加深网络的情况下不会发生梯度消失的问题。本发明中采用Resnet网络对子视频中的中间帧图像进行场景分类,分类包括足球场,教室,酒吧等场景。所有子视频中的关键帧经过分类网络之后,生成向量C i ,i=0,1,…,X-1。
步骤103、基于102处理步骤之后,会输出三个向量A i ,i=0,…,X-1,D i ,i=0,1…,X-1,C i ,i=0,1,…,X-1。三个向量分别代表了视频中提取的原子行为,目标,场景这三种基础特征。将这三个向量进行拼接,生成向量F i =[a 0 ,a 1 ,,a 79 ,d 0 ,d 1 ,,d L-1 ,c 0 ,c 1 ,,c E-1 ],i=0,1,…,X-1。
步骤104、步骤103中的向量F作为词嵌入(word embedding),将向量F和位置嵌入(position embedding,即位置编码向量)相加。因为深度自注意力变换网络(transformer)模型的自注意力(self-attention)层并没有包含位置信息。训练时想让位置信息参与训练,需要构造和word embedding维度一样的矩阵。矩阵的生成方式如下:
PE (pos,2i)=sin(pos/1000 2i/d model )
PE (pos,2i+1)=cos(pos/1000 2i/d model )
PE为二维矩阵,维度跟词嵌入(word embedding)的维度一样。pos是指当前子视频在总视频中的位置,与时序相关,i是指向量中每个值的索引(index)。
将相加后的向量结果输入到深度自注意力变换网络的编码模块(transformerencoder)中进行分类。因为复杂行为具有时序相关性,就跳远来讲,分为助跑阶段,跳跃阶段,落地阶段。同时空间中运动场地等场景信息和场景中的物体也会对复杂行为的判断起到很大的影响。该步骤中将前面时序的子视频提取的信息,输入到深度自注意力变换网络的编码模块(transformer encoder)中进行处理,输出最后的复杂行为分类结果,深度自注意力变换网络的编码模块(transformer encoder)网络结构如图5所示。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (10)

1.一种基于视频基础单元分析的复杂行为识别方法,其特征在于包括如下步骤:
步骤一:将复杂行为的视频序列V,在时间序列上进行分段,分为X个子视频v i i=0,…,X-1;
步骤二:对各个子视频进行原子行为识别,输出原子行为向量;对各个子视频的中间帧进行目标检测,输出目标检测向量;对各个子视频的中间帧进行场景识别,输出场景识别向量,包括如下步骤:
步骤2.1,将X个子视频分别送到行为检测网络中,进行原子行为识别;
步骤2.2,对于每个子视频,输出结果为N1个场景中人的检测框,每个检测框对应n1个原子行为的概率,将N2个长度为n2的向量在维度N3上进行最大值操作,作为子视频经过原子行为识别网络的识别结果,输出原子行为向量A i
步骤2.3,子视频v i 包含s个图像序列,取出[s/2]序列位置处所对应的图像;
步骤2.4,将图像放入目标检测网络中进行通用目标检测,输出M个目标检测框坐标,并且输出M个维度为L的向量,每个向量代表预测为各个物体的置信度,输出目标检测向量D i
步骤2.5,将图像放入分类网络中进行场景分类,分类总数为E,输出X个维度为E的向量,向量的每个维度表示分类为当前种类的置信度值,输出场景识别向量C i
步骤三:将原子行为向量、目标检测向量和场景识别向量,进行连接操作生成向量F;
步骤四:向量F与位置信息相加,利用深度自注意力变换网络模型的编码模块进行分类。
2.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法,其特征在于所述步骤2.2中的原子行为识别包括如下步骤:对于每个子视频v i i=0,…,X-1,每个v i 子视频序列送入到行为检测网络中,生成N4个包围框的坐标,同时生成N2个维度为n2的向量,每个向量代表预测为原子行为的置信度,输出结果如下:
Figure DEST_PATH_IMAGE001
=(a k0 ,a k1 ,,a kn2),i=0,1…,X-1,k=0,1,…,N2-1
a表示N2个维度为n2的向量,对a在维度N3上进行最大值操作,输出向量:
A i =(max(a 00 ,a 10 ,,a (N3-1)0 ),max(a 01 ,a 11 ,,a (N3-1)1 ),…, max(a 0(n2-1),a 1(n2-1),,a (N3-1)(n2-1))),i=0,1…,X-1。
3.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法,其特征在于所述步骤2.4中的目标检测包括如下步骤:对于每个子视频的中间图像I i ,i=0,…,X-1,将每个v i 子视频序列送入到目标检测网络中,检测的目标类别总数量为L,生成M个包围框的坐标,同时生成M个维度为L的向量,每个向量代表了预测为各个目标的置信度,对于每个图像处理后,整个视频的输出结果如下:
Figure DEST_PATH_IMAGE002
=(d k0 ,d k1 ,,d kL-1 ),i=0,1…,X-1,k=0,1,…,M-1
d表示M个维度为L的向量,对d在维度M上进行最大值操作,输出向量:
D i =(max(d 00 ,d 10 ,,d (M-1)0 ),max(d 01 ,d 11 ,,d (M-1)1 ),…, max(d 0(L-1),d 1(L-1),,d (M-1) (L-1))),i=0,1…,X-1。
4.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法,其特征在于所述步骤2.5中的场景分类,输出结果如下:
C i =(c 0 ,c 1 ,,c E-1 ),i=0,1,…,X-1
c表示X个维度为E的向量,向量的每个维度表示分类为当前种类的置信度值。
5.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法,其特征在于所述步骤三中,将输出向量A i ,D i ,C i ,i=0,1,…,X-1,进行concat拼接操作,生成向量F i ,i=0,1,…,X-1,所述concat拼接操作如下:
F=[a 0 ,a 1 ,,a n2-1 ,d 0 ,d 1 ,,d L-1 ,c 0 ,c 1 ,,c E-1 ],i=0,1,…,X-1
a表示N2个维度为n2的向量,行为检测网络中,生成N4个包围框的坐标,同时生成N2个维度为n2的向量,每个向量代表预测为原子行为的置信度;d表示M个维度为L的向量,目标检测网络中,检测的目标类别总数量为L,生成M个包围框的坐标,同时生成M个维度为L的向量,每个向量代表了预测为各个目标的置信度;c表示X个维度为E的向量,分类网络中进行场景分类,分类总数为E,输出X个维度为E的向量,向量的每个维度表示分类为当前种类的置信度值。
6.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法,其特征在于所述步骤四中,将生成的F i ,i=0,1,…,X-1作为词嵌入与位置嵌入相加后,得到整个视频高级语义表征,输入到深度自注意力变换网络模型的编码模块中进行分类。
7.如权利要求6所述的一种基于视频基础单元分析的复杂行为识别方法,其特征在于所述位置嵌入的计算公式如下:
PE (pos,2i’)=sin(pos/1000 2i’/d model )
PE (pos,2i’+1)=cos(pos/1000 2i’/d model )
pos是当前子视频在总视频中的位置,与时序相关,i'是指向量中每个值的索引,偶数位置,使用正弦编码,在奇数位置,使用余弦编码,d model表示词嵌入的向量长度。
8.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法,其特征在于所述步骤2.1中的行为检测网络是SlowFast行为识别网络,使用慢速高分辨率来分析视频中的静态内容,快速低分辨率来分析视频中的动态内容,其中慢通道帧率低,用于提取空间语义信息,网络宽度大,快通道帧率低,用于提取时序动作信息,网络宽度小,将子视频以不同的采样频率分别送入到慢通道和快通道中进行处理,获得该子视频的原子行为识别结果。
9.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法,其特征在于所述步骤2.4中的目标检测网络是一种单阶段的Yolov3目标检测网络,包括前置网络CNN用于提取语义特征,以及不同尺度的Yolo算法的头部预测模块对目标框进行预测和回归,网络中基于FPN的方式,对不同尺度的语义特征进行融合,将低尺度的低级细节特征和高尺度的高级语义特征融合。
10.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法,其特征在于所述步骤2.5中的分类网络是Resnet分类网络。
CN202110448783.XA 2021-04-25 2021-04-25 一种基于视频基础单元分析的复杂行为识别方法 Active CN112990122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110448783.XA CN112990122B (zh) 2021-04-25 2021-04-25 一种基于视频基础单元分析的复杂行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110448783.XA CN112990122B (zh) 2021-04-25 2021-04-25 一种基于视频基础单元分析的复杂行为识别方法

Publications (2)

Publication Number Publication Date
CN112990122A CN112990122A (zh) 2021-06-18
CN112990122B true CN112990122B (zh) 2021-08-17

Family

ID=76340063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110448783.XA Active CN112990122B (zh) 2021-04-25 2021-04-25 一种基于视频基础单元分析的复杂行为识别方法

Country Status (1)

Country Link
CN (1) CN112990122B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627410B (zh) * 2021-10-14 2022-03-18 江苏奥斯汀光电科技股份有限公司 一种视频中动作语义识别检索的方法
CN114359791B (zh) * 2021-12-16 2023-08-01 北京信智文科技有限公司 一种基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法
CN114863320A (zh) * 2022-04-06 2022-08-05 斑马网络技术有限公司 目标对象行为识别方法、装置、电子设备及介质
CN114495285B (zh) * 2022-04-18 2022-07-12 江西科技学院 复杂行为识别方法、系统、计算机设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334845A (zh) * 2007-06-27 2008-12-31 中国科学院自动化研究所 一种基于轨迹序列分析和规则归纳的视频行为识别方法
CN109086306A (zh) * 2018-06-22 2018-12-25 国网浙江省电力有限公司 基于混合隐马尔可夫模型的原子事件标签的提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334845A (zh) * 2007-06-27 2008-12-31 中国科学院自动化研究所 一种基于轨迹序列分析和规则归纳的视频行为识别方法
CN109086306A (zh) * 2018-06-22 2018-12-25 国网浙江省电力有限公司 基于混合隐马尔可夫模型的原子事件标签的提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions;Chunhui Gu等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181217;第6047-6054页 *
基于关键原子动作的视频事件学习与识别方法;赵猛等;《北京理工大学学报》;20130331;第33卷(第3期);第290-295页 *

Also Published As

Publication number Publication date
CN112990122A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112990122B (zh) 一种基于视频基础单元分析的复杂行为识别方法
He et al. Foreground-aware pyramid reconstruction for alignment-free occluded person re-identification
Wang et al. Hierarchical attention network for action recognition in videos
Zeng et al. Contrastive learning of global and local video representations
Yang et al. Spatiotemporal trident networks: detection and localization of object removal tampering in video passive forensics
CN108765279A (zh) 一种面向监控场景的行人人脸超分辨率重建方法
CN113158723A (zh) 一种端到端的视频动作检测定位系统
Wang et al. Spatial–temporal pooling for action recognition in videos
Jarabese et al. Sign to speech convolutional neural network-based filipino sign language hand gesture recognition system
Yuan et al. A cross-scale mixed attention network for smoke segmentation
Ma et al. Convolutional transformer network for fine-grained action recognition
Wan et al. Dynamic gesture recognition based on three-stream coordinate attention network and knowledge distillation
Zhao et al. MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition
Liu et al. Solution of wide and micro background bias in contrastive action representation learning
Sha et al. An improved two-stream CNN method for abnormal behavior detection
Yang et al. Learning discriminative motion feature for enhancing multi-modal action recognition
Deng et al. Abnormal behavior recognition based on feature fusion C3D network
You et al. View enhanced jigsaw puzzle for self-supervised feature learning in 3D human action recognition
Li et al. Pose2seg: Human instance segmentation without detection
Ma et al. Dynamic sign language recognition based on improved residual-lstm network
Rawat et al. Indian sign language recognition system for interrogative words using deep learning
Caetano et al. Magnitude-Orientation Stream network and depth information applied to activity recognition
CN118155119B (zh) 面向智能电梯乘客意图分析的视频分类方法及系统
Malik et al. A Simplified Skeleton Joints Based Approach For Human Action Recognition
Zhang et al. Single-Stage Related Object Detection for Intelligent Industrial Surveillance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant