CN112633260B - 视频动作分类方法、装置、可读存储介质及设备 - Google Patents

视频动作分类方法、装置、可读存储介质及设备 Download PDF

Info

Publication number
CN112633260B
CN112633260B CN202110250187.0A CN202110250187A CN112633260B CN 112633260 B CN112633260 B CN 112633260B CN 202110250187 A CN202110250187 A CN 202110250187A CN 112633260 B CN112633260 B CN 112633260B
Authority
CN
China
Prior art keywords
sequence
feature
video
time
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110250187.0A
Other languages
English (en)
Other versions
CN112633260A (zh
Inventor
冀志龙
陈博昱
刘霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110250187.0A priority Critical patent/CN112633260B/zh
Publication of CN112633260A publication Critical patent/CN112633260A/zh
Application granted granted Critical
Publication of CN112633260B publication Critical patent/CN112633260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Television Systems (AREA)

Abstract

本发明提供一种视频动作分类方法、装置及设备,视频动作分类方法包括:获取输入视频序列;输入视频序列包括多个视频帧图像;将所述输入视频序列输入卷积层,得到卷积输出特征序列F;对卷积输出特征序列F进行运动增强处理,得到运动增强输出特征
Figure 123920DEST_PATH_IMAGE001
;对运动增强输出特征
Figure 657670DEST_PATH_IMAGE001
进行时序增强处理,得到时序增强输出特征
Figure 853159DEST_PATH_IMAGE002
;将卷积输出特征序列F与时序增强输出特征
Figure 469954DEST_PATH_IMAGE002
进行第一融合处理,得到第一融合输出特征;以及将所述第一融合输出特征输入全连接层,得到分类结果
Figure 383683DEST_PATH_IMAGE003
。该方法可以增加对大尺度、长距离的信息融合,提高算法的精度。

Description

视频动作分类方法、装置、可读存储介质及设备
技术领域
本发明涉及视频分类技术领域,尤其涉及一种视频动作分类方法、装置、可读存储介质及设备。
背景技术
随着电子设备的普及,基于视频的信息传递和交流,在人们的生活和工作中的份量越来越重要。视频动作识别是视频任务中的一项基本任务,在很多方面都得到了成功的应用,例如智能监控、自动驾驶、个人推荐和娱乐等方面。
目前,对于视频动作分类任务,主要基于两方面的信息来解决。第一,基于相邻帧之间的运动信息,已有的主要是两种方法,一是采用光流方法计算相邻帧之间的运动信息,二是计算神经网络提取的相邻帧之间的特征差值作为一种运动信息的近似表示。光流方法的计算量非常大,无法做到实时。特征差的方法是一种简单的近似求解,不能很好的代表运动信息。第二,基于视频序列上的时间信息融合特征,已有的主要采用两种方法,一是通过3D卷积做时序上信息的融合,二是在时序通道上做位移错位操作以达到时序信息的融合。采用3D卷积时,单层中只能融合卷积核大小的信息,随着卷积层数的加深,时序信息融合的范围会加深,但是无法做到大尺度、长距离的时序信息融合。时间错位操作是在邻近时序通道的错位,存在同样的问题。
发明内容
为了解决上述技术问题中的至少一个,本发明的一些方面提供了一种视频动作分类方法、装置、可读存储介质及设备,以增加对大尺度、长距离的信息融合,提高算法的精度。
一方面,本发明提供一种视频动作分类方法,采用视频动作分类模型对视频动作进行分类,视频动作分类方法包括:
获取输入视频序列,所述输入视频序列包括多个视频帧图像;
将所述输入视频序列输入卷积层,得到卷积输出特征序列F;
对所述卷积输出特征序列F进行运动增强处理,得到运动增强输出特征
Figure 802380DEST_PATH_IMAGE001
对所述运动增强输出特征
Figure 922783DEST_PATH_IMAGE001
进行时序增强处理,得到时序增强输出特征
Figure 171361DEST_PATH_IMAGE002
将所述卷积输出特征序列F与所述时序增强输出特征
Figure 769833DEST_PATH_IMAGE002
进行第一融合处理,得到第一融合输出特征;以及
将所述第一融合输出特征输入全连接层,得到分类结果
Figure 53047DEST_PATH_IMAGE003
在本发明的至少一个实施例中,对所述卷积输出特征序列F进行运动增强处理,得到运动增强输出特征
Figure 78771DEST_PATH_IMAGE001
,包括:
计算卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征,并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理,得到多个第二融合输出特征Hi;
将所述多个第二融合输出特征Hi进行第三融合处理,得到第三融合输出特征H;
生成一帧与所述第三融合输出特征H同样维度的全零特征,作为最后一帧并与所述第三融合输出特征H进行第四融合处理,得到所述运动增强输出特征
Figure 549067DEST_PATH_IMAGE001
在本发明的至少一个实施例中,对所述卷积输出特征序列F进行运动增强处理,得到运动增强输出特征
Figure 216809DEST_PATH_IMAGE001
,还包括:
在所述计算所述卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征,并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理,得到多个第二融合输出特征Hi之前,对所述卷积输出特征序列F采用指定维度的卷积层按照预设比例
Figure 83090DEST_PATH_IMAGE004
进行降维处理,得到降维后的输出特征
Figure 482979DEST_PATH_IMAGE005
;其中,
Figure 440571DEST_PATH_IMAGE006
;并用所述降维后的输出特征
Figure 380845DEST_PATH_IMAGE005
代替所述卷积输出特征序列F进行后续处理。
在本发明的至少一个实施例中,计算卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征,并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理,得到多个第二融合输出特征Hi,包括:
Figure 100002_DEST_PATH_IMAGE007
Figure 576334DEST_PATH_IMAGE008
其中,
Figure 100002_DEST_PATH_IMAGE009
为第i帧和第i+1帧的互相关特征;
Figure 412703DEST_PATH_IMAGE010
Figure 60853DEST_PATH_IMAGE009
与第i+1帧对应的卷积输出特征进行第二融合处理后的特征;k为每个像素计算互相关区域的大小;
Figure 273660DEST_PATH_IMAGE011
,
Figure 120393DEST_PATH_IMAGE012
为像素的矩阵坐标;
Figure 658822DEST_PATH_IMAGE013
表示
Figure 591006DEST_PATH_IMAGE014
Figure 138662DEST_PATH_IMAGE015
在互相关区域的像素点积之和。
在本发明的至少一个实施例中,所述第二融合处理、第三融合处理、第四融合处理均为按照通道维度进行拼接处理。
在本发明的至少一个实施例中,对所述运动增强输出特征
Figure 839901DEST_PATH_IMAGE001
进行时序增强处理,得到时序增强输出特征
Figure 814811DEST_PATH_IMAGE002
,包括:
将所述运动增强输出特征
Figure 234291DEST_PATH_IMAGE001
按照预设比例进行时间维度t/20,t/21,…,t/2n的下采样,分别得到下采样特征
Figure 320058DEST_PATH_IMAGE016
Figure 875805DEST_PATH_IMAGE017
,…,
Figure 21615DEST_PATH_IMAGE018
;其中n>0,n为整数;
根据相邻两个时间维度各自对应的下采样特征,计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征;
将各所述时序增强特征、所述下采样特征
Figure 922532DEST_PATH_IMAGE018
按照时间维度拼接,组成第一融合特征
Figure 546411DEST_PATH_IMAGE019
在时间维度采用指定维度的卷积层处理所述第一融合特征
Figure 487822DEST_PATH_IMAGE019
,生成第二融合特征
Figure 804534DEST_PATH_IMAGE020
采用所述指定维度的卷积层按照预设比例进行处理,获得与所述卷积输出特征序列F维度一致的所述时序增强输出特征
Figure 933027DEST_PATH_IMAGE002
在本发明的至少一个实施例中,所述根据相邻两个时间维度各自对应的下采样特征,计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征,将各所述时序增强特征、所述下采样特征
Figure 360598DEST_PATH_IMAGE018
按照时间维度拼接,组成第一融合特征
Figure 625357DEST_PATH_IMAGE019
,包括:
针对进行时间维度
Figure 378549DEST_PATH_IMAGE021
的下采样处理后对应的下采样特征
Figure 728759DEST_PATH_IMAGE022
,根据与其相邻时间维度t/2n的下采样特征
Figure 960020DEST_PATH_IMAGE018
,计算下采样特征
Figure 344865DEST_PATH_IMAGE022
对应的第一时序增强特征
Figure 472221DEST_PATH_IMAGE023
将所述第一时序增强特征
Figure 575306DEST_PATH_IMAGE023
作为所述时间维度
Figure 79100DEST_PATH_IMAGE021
的新的下采样特征,利用所述第一时序增强特征同样的计算方式,计算时间维度
Figure 584031DEST_PATH_IMAGE024
的下采样特征
Figure 882288DEST_PATH_IMAGE025
对应的第二时序增强特征
Figure 207090DEST_PATH_IMAGE026
采用所述第二时序增强特征的计算方式,分别得到下采样特征
Figure 983416DEST_PATH_IMAGE016
Figure 274677DEST_PATH_IMAGE017
,…,
Figure 9415DEST_PATH_IMAGE027
对应的时序增强特征
Figure 821513DEST_PATH_IMAGE028
Figure 932689DEST_PATH_IMAGE029
,…,
Figure 818736DEST_PATH_IMAGE030
将各时序增强特征
Figure 989955DEST_PATH_IMAGE028
Figure 758190DEST_PATH_IMAGE029
,…,
Figure 345161DEST_PATH_IMAGE030
Figure 148032DEST_PATH_IMAGE026
Figure 958993DEST_PATH_IMAGE023
与所述下采样特征
Figure 948946DEST_PATH_IMAGE018
按照时间维度拼接,组成第一融合特征
Figure 136344DEST_PATH_IMAGE019
在本发明的至少一个实施例中,所述针对进行时间维度的下采样处理后对应的下采样特征
Figure 59301DEST_PATH_IMAGE022
,根据与其相邻时间维度t/2n的下采样特征
Figure 572322DEST_PATH_IMAGE018
,计算下采样特征
Figure 111888DEST_PATH_IMAGE022
对应的第一时序增强特征
Figure 386135DEST_PATH_IMAGE023
,包括:
将时间维度t/2n的下采样特征
Figure 694756DEST_PATH_IMAGE018
升维到时间维度
Figure 113099DEST_PATH_IMAGE021
的特征
Figure 343224DEST_PATH_IMAGE031
,将下采样特征
Figure 872425DEST_PATH_IMAGE022
Figure 504395DEST_PATH_IMAGE031
分别通过一个共享卷积层计算新的特征
Figure 93639DEST_PATH_IMAGE032
Figure 76639DEST_PATH_IMAGE033
,根据新的特征
Figure 409531DEST_PATH_IMAGE032
Figure 630428DEST_PATH_IMAGE033
计算得到第一注意度Att1;
将所述第一注意度Att1与下采样特征
Figure 656153DEST_PATH_IMAGE022
相乘,获得第一时序增强特征
Figure 595290DEST_PATH_IMAGE023
在本发明的至少一个实施例中,所述根据新的特征
Figure 200715DEST_PATH_IMAGE032
Figure 276118DEST_PATH_IMAGE033
计算得到第一注意度Att1,包括:
根据新的特征
Figure 670147DEST_PATH_IMAGE032
Figure 565422DEST_PATH_IMAGE033
,在t维度,按照以下计算公式,计算得到第一注意度Att1;
Figure 443379DEST_PATH_IMAGE034
在本发明的至少一个实施例中,所述第一融合处理为相加处理。
在本发明的至少一个实施例中,所述视频动作分类模型通过以下方法训练得到:
获取样本输入视频序列,所述样本输入视频序列包括多个样本视频帧图像;
获取样本输入视频序列中多个样本视频帧图像的标注数据;
根据所述样本输入视频序列及标注数据,对初始视频动作分类模型进行训练,得到所述视频动作分类模型。
在本发明的至少一个实施例中,根据所述样本输入视频序列及标注数据,对初始视频动作分类模型进行训练,得到所述视频动作分类模型,包括:采用公式
Figure 373289DEST_PATH_IMAGE035
作为损失函数对所述初始视频动作分类模型进行训练,直至所述视频动作分类模型收敛;
其中,
Figure 475237DEST_PATH_IMAGE036
为样本输入视频序列的标注数据,
Figure 388967DEST_PATH_IMAGE037
为样本输入视频序列中各样本视频帧图像的样本预测分类结果。
在本发明的至少一个实施例中,所述方法还包括:
获取视频,并将视频平均切分为多个片段;
从每个片段中随机抽取一张图像,得到所述输入视频序列。
另一方面,本发明还提供一种视频动作分类装置,包括:
视频序列获取模块,用于获取输入视频序列,所述输入视频序列包括多个视频帧图像;
卷积层,用于对所述输入视频序列进行卷积处理,得到卷积输出特征序列F;
运动增强处理模块,用于对所述卷积输出特征序列F进行运动增强处理,得到运动增强输出特征
Figure 601773DEST_PATH_IMAGE001
时序增强处理模块,用于对所述运动增强输出特征
Figure 182927DEST_PATH_IMAGE001
进行时序增强处理,得到时序增强输出特征
Figure 190198DEST_PATH_IMAGE002
第一融合模块,用于将所述卷积输出特征序列F与所述时序增强输出特征
Figure 856802DEST_PATH_IMAGE002
进行第一融合处理,得到第一融合输出特征;以及
全连接层,用于对所述第一融合输出特征进行分类处理,得到分类结果
Figure 607721DEST_PATH_IMAGE003
又一方面,本发明还提供一种可读存储介质,其上具有可执行指令,当可执行指令被执行时,使得计算机执行如上任一项所述的视频动作分类方法中的步骤。
又一方面,本发明还提供一种视频动作分类设备,设备包括处理器和存储器,存储器中存储有适于处理器执行的计算机程序指令,计算机程序指令被处理器运行时执行如上任一项所述的视频动作分类方法中的步骤。
本发明的视频动作分类方法、装置、可读存储介质及设备,利用运动增强处理能更好的提取相邻帧之间的运动相关性,并与采用时序增强处理的特征进行融合,可以有效提取视频中的有效信息,增加对大尺度长距离的信息融合,提高算法预测精度。
附图说明
附图示出了本发明的示例性实施方式,并与其说明一起用于解释本发明的原理,其中包括了这些附图以提供对本发明的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1为本发明视频动作分类方法的示例性流程示意图;
图2为本发明视频动作分类方法的又一示例性流程示意图;
图3为本发明运动增强处理以及时序增强处理环节的示例性流程示意图;
图4为本发明运动增强处理过程的示例性流程示意图;
图5为本发明时序增强处理过程的示例性流程示意图;
图6为本发明视频动作分类装置的示例性结构示意图;
图7为本发明视频动作分类设备的示例性结构示意图。
具体实施方式
下面结合附图和实施方式对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分。
需要说明的是,在不冲突的情况下,本发明中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本发明。
需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。
本发明实施例提供的方法可以由相关的处理器执行,且下文均以处理器作为执行主体为例进行说明。其中,执行主体可以根据具体案例进行调整,如服务器、电子设备、计算机等。
本发明实施例提供了一种视频动作分类方法、装置、可读存储介质及设备,以增加对大尺度、长距离的信息融合,提高算法的精度。
参见图1和图2,示例性地示出了视频动作分类方法的流程示意图;本发明实施例提供的视频动作分类方法具体包括:
S101、获取输入视频序列S,输入视频序列包括多个视频帧图像。
可选的,将一段视频平均切分为t个片段,然后从每个片段中随机抽取一张图像,组成一个输入视频序列S,其中t一般大于等于8。输入视频序列S由按照时间序列排列的t帧视频帧图像组成。
S102、将输入视频序列S输入视频动作分类模型的卷积层,得到卷积输出特征序列F。卷积输出特征序列F由各个视频图像帧经卷积层处理后得到的卷积输出特征组成。
S103、对所述卷积输出特征序列F进行运动增强处理,得到运动增强输出特征
Figure 449906DEST_PATH_IMAGE001
。运动增强处理可以利用相邻帧之间的互相关特征更好的提取相邻帧之间的运动相关性。
S104、对所述运动增强输出特征
Figure 91060DEST_PATH_IMAGE001
进行时序增强处理,得到时序增强输出特征
Figure 448223DEST_PATH_IMAGE002
。时序增强处理可以利用多尺度的时序注意力增强机制,有效提取视频中的有效信息。
S105、将所述卷积输出特征序列F与所述时序增强输出特征
Figure 737253DEST_PATH_IMAGE002
进行第一融合处理,得到第一融合输出特征。在本发明的一种实施方式中,第一融合输出特征也可称为TME(Temporal and Motion Enhance时序和运动增强)输出特征。第一融合输出特征是指经过时序增强和运动增强处理之后的特征,包含了从输入视频序列S中提取的对后续分类重要的有效信息。
在本发明的一种实施方式中,第一融合处理可以是相加处理,也就是将卷积输出特征序列F与时序增强输出特征
Figure 761841DEST_PATH_IMAGE002
进行相加。
S106、将所述第一融合输出特征输入全连接层,得到分类结果
Figure 907651DEST_PATH_IMAGE003
。视频动作分类模型的全连接层通过对第一融合输出特征进行分类,输出视频动作的分类结果。
图1中的TME模块指的是时序和运动增强模块,FC(Fully Connected)指的是全连接层,类别1、类别2等代表输出的分类结果
Figure 283269DEST_PATH_IMAGE003
;将视频序列S输入到深度神经网络中,输出视频分类动作结果
Figure 641569DEST_PATH_IMAGE038
本发明的视频动作分类方法通过利用运动增强处理,能更好的提取相邻帧之间的运动相关性,并与采用时序增强处理的特征进行融合,可以有效提取视频中的有效信息,增加对大尺度长距离的信息融合,提高算法预测的精度。
进一步的,参见图3所示的运动增强处理以及时序增强处理环节的示例性流程示意图,以及图4所示的运动增强处理过程的示例性流程示意图,在发明的一种实施方式中,对所述卷积输出特征序列F进行运动增强处理,得到运动增强输出特征
Figure 51822DEST_PATH_IMAGE001
,包括:
S201、计算卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征,并按照通道(channel)维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理,得到多个第二融合输出特征Hi。
可选的,可以采用互相关计算公式来计算卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征,并按照通道维度将互相关特征与相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理,得到多个第二融合输出特征Hi:
互相关是将第i帧中各个区域的像素和第i+1帧中对应区域的像素进行遍历相乘并求和,计算公式为:
Figure 837375DEST_PATH_IMAGE039
第二融合处理可以是按照通道维度进行拼接处理,采用的公式为:
Figure 434710DEST_PATH_IMAGE040
其中,
Figure 596701DEST_PATH_IMAGE009
为第i帧和第i+1帧的互相关特征;
Figure 861460DEST_PATH_IMAGE010
Figure 83494DEST_PATH_IMAGE009
与第i+1帧的原始特征即原始的卷积输出特征进行拼接后的特征;k为每个像素计算互相关区域的大小;
Figure 162265DEST_PATH_IMAGE011
,
Figure 862368DEST_PATH_IMAGE012
为像素的矩阵坐标,具体的讲
Figure 981634DEST_PATH_IMAGE011
是指第i帧图像中参与互相关计算的像素所在的行、列值形成的一对数字;
Figure 108990DEST_PATH_IMAGE012
是指第i+1帧图像中参与互相关计算的像素所在的行、列值形成的一对数字;<A,B>表示A与B在互相关区域的像素点积之和,也就是说,
Figure 946496DEST_PATH_IMAGE013
表示
Figure 919131DEST_PATH_IMAGE041
Figure 96165DEST_PATH_IMAGE042
在互相关区域的像素点积之和。
S202、将所述多个第二融合输出特征Hi进行第三融合处理,得到第三融合输出特征H。
在本发明的一种实施方式中,第三融合处理可以是按照通道维度进行拼接处理。例如,如果有n帧按照时序排列的图像,会在时间维度上生成n-1个第二融合输出特征Hi。第三融合处理实质上是将不同时间维度的第二融合输出特征Hi按时序进行拼接,形成第三融合输出特征H。
S203、生成一帧与第三融合输出特征H同样维度的全零特征,作为最后一帧并与第三融合输出特征H进行第四融合处理,得到运动增强输出特征
Figure 394423DEST_PATH_IMAGE001
在本发明的一种实施方式中,第四融合处理可以是按照通道维度进行拼接处理。
由于经过步骤S202处理后,输入视频序列S中的t帧特征可产生t-1帧第三融合输出特征H,为了保证时间维度的一致性,故此生成一帧与第三融合输出特征H同样维度的全零特征(feature)代表最后一帧的特征,然后与第三融合输出特征H按照通道(channel)维度拼接起来,作为运动增强输出特征
Figure 453646DEST_PATH_IMAGE001
。采用该方法处理得到的运动增强输出特征
Figure 229972DEST_PATH_IMAGE001
由于利用了相邻帧之间的互相关特征,因此能够更好的提取相邻帧之间的运动相关性。
可选的,为了降低处理的计算量,在步骤S201之前,可以对所述卷积输出特征序列F采用指定维度的卷积层,例如1x1卷积层,按照预设比例
Figure 58250DEST_PATH_IMAGE004
Figure 792988DEST_PATH_IMAGE006
,进行降维处理,得到降维后的输出特征
Figure 73928DEST_PATH_IMAGE005
。在后续步骤中,用降维后的输出特征
Figure 937102DEST_PATH_IMAGE005
来代替卷积输出特征序列F,后续步骤的执行过程均与对卷积输出特征序列F进行处理时的情况相同。降低卷积输出特征F的维度,生成输出特征
Figure 885467DEST_PATH_IMAGE005
,可以减少后续运算的计算量。图3中的“1×1 2D Conv”指的是1×1卷积层,ME(Motion Enhance)是指运动增强,TE(Temporal Enhance)是指时序增强。
进一步的,参见图3所示的运动增强处理以及时序增强处理环节的示例性流程示意图,以及图5所示的时序增强处理过程的示例性流程示意图,在本发明的一种实施方式中,对所述运动增强输出特征
Figure 791106DEST_PATH_IMAGE001
进行时序增强处理,得到时序增强输出特征
Figure 28183DEST_PATH_IMAGE002
,包括:
S301、将所述运动增强输出特征
Figure 83995DEST_PATH_IMAGE001
按照预设比例进行时间维度t/20,t/21,…,t/2n的下采样,分别得到各自对应的下采样特征
Figure 355708DEST_PATH_IMAGE016
Figure 901090DEST_PATH_IMAGE017
,…,
Figure 156622DEST_PATH_IMAGE018
;其中n>0,n为整数。以n取值为2进行举例说明,将所述时序增强输出特征
Figure 344020DEST_PATH_IMAGE001
按照一定的比例进行时间维度t,t/2,t/4的下采样,分别记为
Figure 532556DEST_PATH_IMAGE016
Figure 779998DEST_PATH_IMAGE017
Figure 53984DEST_PATH_IMAGE043
。上下采样通常为2的整倍数,这样方便信息的融合。
S302、根据相邻两个时间维度各自对应的下采样特征,计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征。继续参照上述进行时间维度t,t/2,t/4的下采样的案例进行说明,例如可根据时间维度t/2,t/4各自对应的下采样特征
Figure 310653DEST_PATH_IMAGE017
Figure 82257DEST_PATH_IMAGE043
,计算时间维度靠前的t/2的下采样特征
Figure 766179DEST_PATH_IMAGE017
对应的时序增强特征,记为
Figure 261883DEST_PATH_IMAGE029
S303、将各所述时序增强特征、所述下采样特征
Figure 322243DEST_PATH_IMAGE018
按照时间维度拼接,组成第一融合特征
Figure 219792DEST_PATH_IMAGE019
。例如,将特征
Figure 340194DEST_PATH_IMAGE043
Figure 588773DEST_PATH_IMAGE029
Figure 187245DEST_PATH_IMAGE028
按照时间维度拼接,组成第一融合特征
Figure 673721DEST_PATH_IMAGE019
S304、在时间维度采用指定维度的卷积层处理所述第一融合特征
Figure 699446DEST_PATH_IMAGE019
,生成第二融合特征
Figure 904162DEST_PATH_IMAGE020
。例如,在时间维度采用指定维度的卷积层,如采用1x1卷积层,处理所述第一融合特征
Figure 40745DEST_PATH_IMAGE019
,生成第二融合特征
Figure 381728DEST_PATH_IMAGE020
S305、采用所述指定维度的卷积层按照预设比例对第二融合特征
Figure 516037DEST_PATH_IMAGE020
进行处理,获得与所述卷积输出特征序列F维度一致的所述时序增强输出特征
Figure 614574DEST_PATH_IMAGE002
。例如,与前面降维处理相对应的,按照
Figure 752251DEST_PATH_IMAGE044
的比例进行升维处理。具体的,采用1x1卷积层,按照
Figure 478899DEST_PATH_IMAGE044
比例,将第二融合特征
Figure 846426DEST_PATH_IMAGE020
升维到与卷积输出特征序列F维度一致,形成所述时序增强输出特征
Figure 291314DEST_PATH_IMAGE002
进一步的,根据相邻两个时间维度各自对应的下采样特征,计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征,将各所述时序增强特征、所述下采样特征
Figure 35279DEST_PATH_IMAGE018
按照时间维度拼接,组成第一融合特征
Figure 350854DEST_PATH_IMAGE019
,包括:
S401、针对进行时间维度
Figure 92545DEST_PATH_IMAGE021
的下采样处理后对应的下采样特征
Figure 227991DEST_PATH_IMAGE022
,根据与其相邻时间维度t/2n的下采样特征
Figure 244489DEST_PATH_IMAGE018
,计算下采样特征
Figure 680149DEST_PATH_IMAGE022
对应的第一时序增强特征
Figure 858321DEST_PATH_IMAGE023
S402、将所述第一时序增强特征
Figure 12222DEST_PATH_IMAGE023
作为所述时间维度
Figure 832410DEST_PATH_IMAGE021
的新的下采样特征,利用所述第一时序增强特征同样的计算方式,计算时间维度
Figure 388157DEST_PATH_IMAGE024
的下采样特征
Figure 533967DEST_PATH_IMAGE025
对应的第二时序增强特征
Figure 175164DEST_PATH_IMAGE026
S403、采用所述第二时序增强特征的计算方式,分别得到下采样特征
Figure 330202DEST_PATH_IMAGE016
Figure 740455DEST_PATH_IMAGE017
,…,
Figure 316886DEST_PATH_IMAGE027
对应的时序增强特征
Figure 710959DEST_PATH_IMAGE028
Figure 138529DEST_PATH_IMAGE029
,…,
Figure 934447DEST_PATH_IMAGE030
S404、将各时序增强特征
Figure 422060DEST_PATH_IMAGE028
Figure 772270DEST_PATH_IMAGE029
,…,
Figure 3531DEST_PATH_IMAGE030
Figure 122796DEST_PATH_IMAGE026
Figure 781311DEST_PATH_IMAGE023
与所述下采样特征
Figure 884396DEST_PATH_IMAGE018
按照时间维度拼接,组成第一融合特征
Figure 388190DEST_PATH_IMAGE019
需要说明的是,计算相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征的过程是一个递归循环的过程,递归循环的次数为n的取值。例如当n=2时,截至S402则完成所有时序增强特征的计算,也就是将相同的计算过程递归循环2次,最终获得时序增强特征
Figure 627541DEST_PATH_IMAGE028
Figure 925799DEST_PATH_IMAGE029
,并跳转到步骤S404,将各时序增强特征
Figure 250601DEST_PATH_IMAGE028
Figure 292506DEST_PATH_IMAGE029
与下采样特征
Figure 386364DEST_PATH_IMAGE043
按照时间维度拼接,组成第一融合特征
Figure 855523DEST_PATH_IMAGE019
当n>2时,则依步骤S403、S404执行,以得到第一融合特征
Figure 136462DEST_PATH_IMAGE019
在本发明的一种实施例中,针对进行时间维度
Figure 687503DEST_PATH_IMAGE021
的下采样处理后对应的下采样特征
Figure 635867DEST_PATH_IMAGE022
,根据与其相邻时间维度t/2n的下采样特征
Figure 541506DEST_PATH_IMAGE018
,计算下采样特征
Figure 575321DEST_PATH_IMAGE022
对应的第一时序增强特征
Figure 224609DEST_PATH_IMAGE023
,包括:
将时间维度t/2n的下采样特征
Figure 293059DEST_PATH_IMAGE018
升维到时间维度
Figure 369599DEST_PATH_IMAGE021
的特征
Figure 890710DEST_PATH_IMAGE031
,将下采样特征
Figure 812530DEST_PATH_IMAGE022
Figure 938749DEST_PATH_IMAGE031
分别通过一个共享卷积层计算新的特征
Figure 389453DEST_PATH_IMAGE032
Figure 335543DEST_PATH_IMAGE033
,根据新的特征
Figure 992878DEST_PATH_IMAGE032
Figure 770341DEST_PATH_IMAGE033
计算得到第一注意度Att1;
将所述第一注意度Att1与时间维度靠前的下采样特征
Figure 188684DEST_PATH_IMAGE022
相乘,获得第一时序增强特征
Figure 949966DEST_PATH_IMAGE023
在本发明的一种实施例中,根据新的特征
Figure 213589DEST_PATH_IMAGE032
Figure 579979DEST_PATH_IMAGE033
计算得到第一注意度Att1,包括:
根据新的特征
Figure 903644DEST_PATH_IMAGE032
Figure 886644DEST_PATH_IMAGE033
,在t维度,按照以下计算公式,计算得到第一注意度Att1;
Figure 219536DEST_PATH_IMAGE034
以下继续参照上述进行时间维度t,t/2,t/4的下采样的案例,并结合图5进行说明。
S501,针对进行时间维度t/2的下采样处理后对应的下采样特征F t/2 ,根据与其相邻时间维度t/4的下采样特征F t/4 ,计算下采样特征F t/2 对应的第一时序增强特征
Figure 237171DEST_PATH_IMAGE029
具体的,可以采用插值或者repeat的方法,将t/4的下采样特征
Figure 997316DEST_PATH_IMAGE043
升维到时间维度t/2的特征
Figure 467612DEST_PATH_IMAGE045
,将下采样特征
Figure 604195DEST_PATH_IMAGE017
Figure 210757DEST_PATH_IMAGE045
分别通过一个共享卷积层计算新的特征
Figure 604786DEST_PATH_IMAGE046
Figure 296799DEST_PATH_IMAGE047
,根据新的特征
Figure 971493DEST_PATH_IMAGE046
Figure 370245DEST_PATH_IMAGE047
计算得到第一注意度Att1;
Figure 409876DEST_PATH_IMAGE048
将第一注意度Att1与下采样特征
Figure 526868DEST_PATH_IMAGE017
相乘,获得第一时序增强特征
Figure 5254DEST_PATH_IMAGE029
S502,将第一时序增强特征
Figure 55249DEST_PATH_IMAGE029
作为时间维度t/2的新的下采样特征,利用同样的计算方式,计算时间维度
Figure 593678DEST_PATH_IMAGE049
的下采样特征
Figure 994704DEST_PATH_IMAGE016
对应的第二时序增强特征
Figure 276780DEST_PATH_IMAGE028
具体的,将时间维度t/2的时序增强特征
Figure 446862DEST_PATH_IMAGE029
升维到时间维度t的特征
Figure 884753DEST_PATH_IMAGE050
,将下采样特征
Figure 54966DEST_PATH_IMAGE016
Figure 78416DEST_PATH_IMAGE050
分别通过一个共享卷积层计算新的特征
Figure 837425DEST_PATH_IMAGE051
Figure 920919DEST_PATH_IMAGE046
,根据新的特征
Figure 968640DEST_PATH_IMAGE051
Figure 592520DEST_PATH_IMAGE046
计算得到第二注意度Att2。第二注意度Att2与第一注意力度的计算公式类似。
将第二注意度Att2与下采样特征
Figure 206035DEST_PATH_IMAGE016
相乘,获得第二时序增强特征
Figure 257167DEST_PATH_IMAGE028
S503,将各时序增强特征
Figure 137659DEST_PATH_IMAGE028
Figure 565229DEST_PATH_IMAGE029
与下采样特征
Figure 95568DEST_PATH_IMAGE043
按照时间维度拼接,组成第一融合特征
Figure 317602DEST_PATH_IMAGE019
当n>2时,如n=3,来针对进行时间维度t,t/2,t/4,t/8的下采样的案例进行说明。
S601,针对进行时间维度t/4的下采样处理后对应的下采样特征
Figure 933391DEST_PATH_IMAGE043
,根据与其相邻时间维度t/8的下采样特征F t/8 ,计算下采样特征对应的第一时序增强特征
Figure 899073DEST_PATH_IMAGE052
具体的,可以采用插值或者repeat的方法,将t/8的下采样特征F t/8 升维到时间维度t/4的下采样特征
Figure 283918DEST_PATH_IMAGE053
,将下采样特征
Figure 676853DEST_PATH_IMAGE043
Figure 983201DEST_PATH_IMAGE053
分别通过一个共享卷积层计算新的特征
Figure 955836DEST_PATH_IMAGE047
Figure 929608DEST_PATH_IMAGE054
,根据新的特征
Figure 493445DEST_PATH_IMAGE047
Figure 818247DEST_PATH_IMAGE054
计算得到第一注意度Att1;
Figure 391310DEST_PATH_IMAGE055
将第一注意度Att1与下采样特征
Figure 485168DEST_PATH_IMAGE043
相乘,获得第一时序增强特征
Figure 485485DEST_PATH_IMAGE052
S602,将第一时序增强特征
Figure 297584DEST_PATH_IMAGE052
作为时间维度t/4的新的下采样特征,利用同样的计算方式,计算时间维度
Figure 871741DEST_PATH_IMAGE049
/2的下采样特征
Figure 23368DEST_PATH_IMAGE017
对应的第二时序增强特征
Figure 929007DEST_PATH_IMAGE029
具体的,将时间维度t/4的第一时序增强特征
Figure 697243DEST_PATH_IMAGE052
升维到时间维度t/2的下采样特征
Figure 80951DEST_PATH_IMAGE045
,将下采样特征
Figure 618243DEST_PATH_IMAGE017
Figure 163625DEST_PATH_IMAGE045
分别通过一个共享卷积层计算新的特征
Figure 215894DEST_PATH_IMAGE046
Figure 934452DEST_PATH_IMAGE047
,根据新的特征
Figure 857408DEST_PATH_IMAGE046
Figure 636008DEST_PATH_IMAGE047
计算得到第二注意度Att2。第二注意度Att2与第一注意力度的计算公式类似。
将第二注意度Att2与下采样特征
Figure 909995DEST_PATH_IMAGE017
相乘,获得第二时序增强特征
Figure 166664DEST_PATH_IMAGE029
S603,将第二时序增强特征
Figure 475285DEST_PATH_IMAGE029
作为时间维度t/2的新的下采样特征,利用同样的计算方式,计算时间维度
Figure 159208DEST_PATH_IMAGE049
的下采样特征
Figure 920490DEST_PATH_IMAGE016
对应的第三时序增强特征
Figure 980850DEST_PATH_IMAGE028
具体的,将时间维度t/2的第二时序增强特征
Figure 878399DEST_PATH_IMAGE029
升维到时间维度t的下采样特征
Figure 727363DEST_PATH_IMAGE050
,将下采样特征
Figure 975942DEST_PATH_IMAGE016
Figure 574414DEST_PATH_IMAGE050
分别通过一个共享卷积层计算新的特征
Figure 857627DEST_PATH_IMAGE051
Figure 883352DEST_PATH_IMAGE046
,根据新的特征
Figure 619227DEST_PATH_IMAGE051
Figure 286969DEST_PATH_IMAGE046
计算得到第三注意度Att3。第三注意度Att3与第一、第二注意力度的计算公式类似。
将第三注意度Att3与下采样特征
Figure 159110DEST_PATH_IMAGE016
相乘,获得第三时序增强特征
Figure 90157DEST_PATH_IMAGE028
S604,将各时序增强特征
Figure 188694DEST_PATH_IMAGE028
Figure 597810DEST_PATH_IMAGE029
Figure 58878DEST_PATH_IMAGE052
与下采样特征F t/8 按照时间维度拼接,组成第一融合特征
Figure 895247DEST_PATH_IMAGE019
在本发明实施例中,视频动作分类模型通过以下方法训练得到:
获取样本输入视频序列,所述样本输入视频序列包括多个样本视频帧图像;
获取样本输入视频序列中多个样本视频帧图像的标注数据;
根据所述样本输入视频序列及标注数据,对初始视频动作分类模型进行训练,得到所述视频动作分类模型。
在本发明实施例中,在根据所述样本输入视频序列及标注数据,对初始视频动作分类模型进行训练,得到所述视频动作分类模型的步骤中,采用公式
Figure 746659DEST_PATH_IMAGE035
作为损失函数对所述初始视频动作分类模型进行训练,直至所述视频动作分类模型收敛;
其中,
Figure 156869DEST_PATH_IMAGE036
为样本输入视频序列的标注数据,
Figure 3602DEST_PATH_IMAGE037
为样本输入视频序列中各样本视频帧图像的样本预测分类结果。
本发明另一方面,提供一种视频动作分类装置,用于执行前面所描述的视频动作分类方法,参见图6,视频动作分类装置包括:
视频序列获取模块401,用于获取输入视频序列。输入视频序列包括多个视频帧图像。可选的,视频序列获取模块可以将一段视频平均切分为t个片段,然后从每个片段中随机抽取一张图像,组成一个输入视频序列S,其中t一般大于等于8。输入视频序列S由按照时间序列排列的t帧图像组成。
卷积层402,用于对所述输入视频序列进行卷积处理,得到卷积输出特征序列F。卷积层为经过训练后的神经网络模型的卷积层,用于初步提取输入视频序列S中的有效信息。
运动增强处理模块403,用于对所述卷积输出特征序列F进行运动增强处理,得到运动增强输出特征
Figure 276452DEST_PATH_IMAGE001
时序增强处理模块404,用于对所述运动增强输出特征
Figure 146319DEST_PATH_IMAGE001
进行时序增强处理,得到时序增强输出特征
Figure 897237DEST_PATH_IMAGE002
第一融合模块405,用于将所述卷积输出特征序列F与所述时序增强输出特征
Figure 5001DEST_PATH_IMAGE002
进行第一融合处理,得到第一融合输出特征。
全连接层406,用于对所述第一融合输出特征进行分类处理,得到分类结果
Figure 917594DEST_PATH_IMAGE003
。全连接层为经过训练后的全连接卷积层,可以根据训练过的内容对TME输出特征进行分类,并输出视频动作的分类结果
Figure 946861DEST_PATH_IMAGE003
进一步的,运动增强处理模块403包括:
互相关特征处理模块,用于计算卷积输出特征序列中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征,并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理,得到多个第二融合输出特征Hi。
融合特征处理模块,用于将所述多个第二融合输出特征Hi进行第三融合处理,得到第三融合输出特征H。
运动增强特征输出模块,用于生成一帧与所述第三融合输出特征H同样维度的全零特征,作为最后一帧并与所述第三融合输出特征H进行第四融合处理,得到所述运动增强输出特征
Figure 767049DEST_PATH_IMAGE001
进一步的,运动增强处理模块403还包括:
降维模块,用于对所述卷积输出特征F采用指定维度的卷积层按照预设比例
Figure 322796DEST_PATH_IMAGE004
进行降维处理,得到降维后的输出特征
Figure 671868DEST_PATH_IMAGE005
;其中,
Figure 578645DEST_PATH_IMAGE006
进一步的,互相关特征处理模块,还用于:通过以下公式计算互相关特征:
Figure 688944DEST_PATH_IMAGE056
以及,利用以下公式进行第二融合处理,得到Hi:
Figure 833617DEST_PATH_IMAGE057
进一步的,时序增强处理模块404包括:
下采样模块(也可以称为降采样模块),用于将所述时序增强输出特征
Figure 619171DEST_PATH_IMAGE001
按照一定的比例进行时间维度t,t/2,t/4的下采样,分别记为
Figure 482084DEST_PATH_IMAGE016
Figure 644075DEST_PATH_IMAGE017
Figure 643255DEST_PATH_IMAGE043
时序增强特征计算模块,用于根据相邻两个时间维度各自对应的下采样特征,计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征。
第一融合模块,用于将各所述时序增强特征、所述下采样特征
Figure 865289DEST_PATH_IMAGE018
按照时间维度拼接,组成第一融合特征
Figure 215499DEST_PATH_IMAGE019
第二融合模块,用于在时间维度采用指定维度的卷积层处理所述第一融合特征
Figure 446760DEST_PATH_IMAGE019
,生成第二融合特征
Figure 566026DEST_PATH_IMAGE020
升维处理模块,用于采用所述指定维度的卷积层按照预设比例进行处理,获得与所述卷积输出特征序列F维度一致的所述时序增强输出特征
Figure 631065DEST_PATH_IMAGE002
进一步的,时序增强特征计算模块,具体用于:针对进行时间维度
Figure 406254DEST_PATH_IMAGE021
的下采样处理后对应的下采样特征
Figure 910048DEST_PATH_IMAGE022
,根据与其相邻时间维度t/2n的下采样特征
Figure 414979DEST_PATH_IMAGE018
,计算下采样特征
Figure 441797DEST_PATH_IMAGE022
对应的第一时序增强特征
Figure 173124DEST_PATH_IMAGE023
;将所述第一时序增强特征
Figure 949450DEST_PATH_IMAGE023
作为所述时间维度
Figure 777729DEST_PATH_IMAGE021
的新的下采样特征,利用所述第一时序增强特征同样的计算方式,计算时间维度
Figure 512467DEST_PATH_IMAGE024
的下采样特征
Figure 527827DEST_PATH_IMAGE025
对应的第二时序增强特征
Figure 576686DEST_PATH_IMAGE026
;采用所述第二时序增强特征的计算方式,分别得到下采样特征
Figure 197154DEST_PATH_IMAGE016
Figure 102793DEST_PATH_IMAGE017
,…,
Figure 136608DEST_PATH_IMAGE027
对应的时序增强特征
Figure 514457DEST_PATH_IMAGE028
Figure 255011DEST_PATH_IMAGE029
,…,
Figure 534814DEST_PATH_IMAGE030
第一融合模块具体用于:将各时序增强特征
Figure 993608DEST_PATH_IMAGE028
Figure 118690DEST_PATH_IMAGE029
,…,
Figure 713751DEST_PATH_IMAGE030
Figure 961192DEST_PATH_IMAGE026
Figure 235179DEST_PATH_IMAGE023
与所述下采样特征
Figure 757427DEST_PATH_IMAGE018
按照时间维度拼接,组成第一融合特征
Figure 800469DEST_PATH_IMAGE019
具体的,时序增强特征计算模块,通过将时间维度t/2n的下采样特征
Figure 484392DEST_PATH_IMAGE018
升维到时间维度
Figure 245674DEST_PATH_IMAGE021
的特征
Figure 306034DEST_PATH_IMAGE031
,将下采样特征
Figure 203583DEST_PATH_IMAGE022
Figure 52547DEST_PATH_IMAGE031
分别通过一个共享卷积层计算新的特征
Figure 301126DEST_PATH_IMAGE032
Figure 899597DEST_PATH_IMAGE033
,根据新的特征
Figure 386074DEST_PATH_IMAGE032
Figure 146219DEST_PATH_IMAGE033
计算得到第一注意度Att1;将所述第一注意度Att1与下采样特征
Figure 288619DEST_PATH_IMAGE022
相乘,来获得第一时序增强特征
Figure 159623DEST_PATH_IMAGE023
进一步的,时序增强特征计算模块,根据以下公式计算得到第一注意力度Att1:
Figure 766185DEST_PATH_IMAGE034
在本发明实施例中,视频动作分类装置还包括模型训练模块,用于采用公式
Figure 431652DEST_PATH_IMAGE058
作为损失函数进行模型训练,直至所述视频动作分类模型收敛;其中,
Figure 858085DEST_PATH_IMAGE036
为为样本输入视频序列的标注数据,
Figure 532780DEST_PATH_IMAGE037
为样本输入视频序列中各样本视频帧图像的样本预测分类结果。
本发明的又一方面,还提供一种可读存储介质,其上具有可执行指令,当可执行指令被执行时,使得计算机执行前述任一项所述的视频动作分类方法中的步骤。
本发明的又一方面,还提供一种视频动作分类设备,图7所示的视频动作分类设备的示例性结构示意图,设备包括通信接口1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信,进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。所述存储器2000和处理器3000的数量可以为一个或多个。
如果通信接口1000、存储器2000及处理器3000独立实现,则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上,则通信接口1000、存储器2000、及处理器3000可以通过内部接口完成相互间的通信。
处理器用于执行上述任一实施例所述视频动作分类方法中的一个或多个步骤。处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器中存储有适于所述处理器执行的计算机程序指令,所述计算机程序指令被所述处理器运行时执行上述任一实施例所述视频动作分类方法中的一个或多个步骤。
存储器可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过通信总线与处理器相连接。存储器也可以和处理器集成在一起。
在本说明书的描述中,参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。同时,在本发明的描述中,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电性连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本发明,而并非是对本发明的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本发明的范围内。

Claims (14)

1.一种视频动作分类方法,其特征在于,采用视频动作分类模型对视频动作进行分类,视频动作分类方法包括:
获取输入视频序列,所述输入视频序列包括按照时间序列排列的t帧视频帧图像,t表示时间维度;
将所述输入视频序列输入卷积层,得到卷积输出特征序列F;所述t帧视频帧图像组成的序列与所述卷积输出特征序列F一一对应;
对所述卷积输出特征序列F进行运动增强处理,得到运动增强输出特征
Figure DEST_PATH_IMAGE001
,所述运动增 强处理为利用卷积输出特征序列F中相邻视频帧之间的互相关特征提取相邻视频帧之间的 运动相关性;
对所述运动增强输出特征
Figure 50401DEST_PATH_IMAGE001
进行时序增强处理,得到时序增强输出特征
Figure 713463DEST_PATH_IMAGE002
,所述时序 增强处理为递归循环计算相邻两个时间维度中时间维度靠前的下采样特征对应的时序增 强特征;
将所述卷积输出特征序列F与所述时序增强输出特征
Figure 973543DEST_PATH_IMAGE002
进行第一融合处理,得到第一 融合输出特征;所述第一融合处理为相加处理;以及
将所述第一融合输出特征输入全连接层,得到分类结果
Figure DEST_PATH_IMAGE003
2.根据权利要求1所述的视频动作分类方法,其特征在于,对所述卷积输出特征序列F 进行运动增强处理,得到运动增强输出特征
Figure 114675DEST_PATH_IMAGE001
,包括:
计算所述卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征,并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理,得到多个第二融合输出特征Hi;
将所述多个第二融合输出特征Hi进行第三融合处理,得到第三融合输出特征H;
生成一帧与所述第三融合输出特征H同样维度的全零特征,作为最后一帧并与所述第 三融合输出特征H进行第四融合处理,得到所述运动增强输出特征
Figure 143811DEST_PATH_IMAGE001
所述第二融合处理、第三融合处理、第四融合处理均为按照通道维度进行拼接处理。
3.根据权利要求2所述的视频动作分类方法,其特征在于,对所述卷积输出特征序列F 进行运动增强处理,得到运动增强输出特征
Figure 183967DEST_PATH_IMAGE001
,还包括:
在所述计算所述卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之 间的互相关特征,并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷 积输出特征进行第二融合处理,得到多个第二融合输出特征Hi之前,对所述卷积输出特征 序列F采用指定维度的卷积层按照预设比例
Figure 665763DEST_PATH_IMAGE004
进行降维处理,得到降维后的输出特征
Figure DEST_PATH_IMAGE005
;其 中,
Figure 610586DEST_PATH_IMAGE006
;并用所述降维后的输出特征
Figure 494228DEST_PATH_IMAGE005
代替所述卷积输出特征序列F进行后续处理。
4.根据权利要求3所述的视频动作分类方法,其特征在于,所述计算所述卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征,并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理,得到多个第二融合输出特征Hi,包括:
Figure DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE009
其中,
Figure 30252DEST_PATH_IMAGE010
为第i帧和第i+1帧的互相关特征;
Figure DEST_PATH_IMAGE011
Figure 530503DEST_PATH_IMAGE010
与第i+1帧对应的卷积输出 特征进行第二融合处理后的特征;k为每个像素计算互相关区域的大小;
Figure 482279DEST_PATH_IMAGE012
,
Figure DEST_PATH_IMAGE013
为像素的矩 阵坐标;
Figure 813903DEST_PATH_IMAGE014
表示
Figure DEST_PATH_IMAGE015
Figure 192932DEST_PATH_IMAGE016
在互相关区域的像素点积 之和;
Figure 448988DEST_PATH_IMAGE005
为降维后的输出特征。
5.根据权利要求1所述的视频动作分类方法,其特征在于,对所述运动增强输出特征
Figure 938875DEST_PATH_IMAGE001
进行时序增强处理,得到时序增强输出特征
Figure 797110DEST_PATH_IMAGE002
,包括:
将所述运动增强输出特征
Figure 347040DEST_PATH_IMAGE001
按照预设比例进行时间维度t/20,t/21,…,t/2n的下采样, 分别得到下采样特征
Figure DEST_PATH_IMAGE017
Figure 618621DEST_PATH_IMAGE018
,…,
Figure DEST_PATH_IMAGE019
;其中n>0,n为整数;
根据相邻两个时间维度各自对应的下采样特征,计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征;
将各所述时序增强特征、所述下采样特征
Figure 912199DEST_PATH_IMAGE019
按照时间维度拼接,组成第一融合特征
Figure 624940DEST_PATH_IMAGE020
在时间维度采用指定维度的卷积层处理所述第一融合特征
Figure 345772DEST_PATH_IMAGE020
,生成第二融合特征
Figure DEST_PATH_IMAGE021
采用所述指定维度的卷积层按照预设比例进行处理,获得与所述卷积输出特征序列F 维度一致的所述时序增强输出特征
Figure 307911DEST_PATH_IMAGE002
6.根据权利要求5所述的视频动作分类方法,其特征在于,所述根据相邻两个时间维度 各自对应的下采样特征,计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的 时序增强特征,将各所述时序增强特征、所述下采样特征
Figure 670760DEST_PATH_IMAGE019
按照时间维度拼接,组成第 一融合特征
Figure 503586DEST_PATH_IMAGE020
,包括:
针对进行时间维度
Figure 395319DEST_PATH_IMAGE022
的下采样处理后对应的下采样特征
Figure DEST_PATH_IMAGE023
,根据与其相邻 时间维度t/2n的下采样特征
Figure 367124DEST_PATH_IMAGE019
,计算下采样特征
Figure 268084DEST_PATH_IMAGE023
对应的第一时序增强特征
Figure 689838DEST_PATH_IMAGE024
将所述第一时序增强特征
Figure 752472DEST_PATH_IMAGE024
作为所述时间维度的新的下采样特征,利用所述第一 时序增强特征同样的计算方式,计算时间维度
Figure DEST_PATH_IMAGE025
的下采样特征
Figure 423625DEST_PATH_IMAGE026
对应的第二时 序增强特征
Figure DEST_PATH_IMAGE027
采用所述第二时序增强特征的计算方式,分别得到下采样特征
Figure 456172DEST_PATH_IMAGE017
Figure 998012DEST_PATH_IMAGE018
,…,
Figure 497126DEST_PATH_IMAGE028
对 应的时序增强特征
Figure DEST_PATH_IMAGE029
Figure 389996DEST_PATH_IMAGE030
,…,
Figure DEST_PATH_IMAGE031
将各时序增强特征
Figure 963584DEST_PATH_IMAGE029
Figure 359930DEST_PATH_IMAGE030
,…,
Figure 29946DEST_PATH_IMAGE031
Figure 878954DEST_PATH_IMAGE027
Figure 659828DEST_PATH_IMAGE024
与所述下采样特征
Figure 972997DEST_PATH_IMAGE019
按 照时间维度拼接,组成第一融合特征
Figure 813914DEST_PATH_IMAGE020
7.根据权利要求6所述的视频动作分类方法,其特征在于,所述针对进行时间维度
Figure 415797DEST_PATH_IMAGE022
的下采样处理后对应的下采样特征
Figure 734783DEST_PATH_IMAGE023
,根据与其相邻时间维度t/2n的下采样 特征
Figure 105721DEST_PATH_IMAGE019
,计算下采样特征
Figure 117540DEST_PATH_IMAGE023
对应的第一时序增强特征
Figure 737877DEST_PATH_IMAGE024
,包括:
将时间维度t/2n的下采样特征
Figure 126133DEST_PATH_IMAGE019
升维到时间维度
Figure 85999DEST_PATH_IMAGE022
的特征
Figure 271648DEST_PATH_IMAGE032
,将下采样特 征
Figure 644861DEST_PATH_IMAGE023
Figure 571228DEST_PATH_IMAGE032
分别通过一个共享卷积层计算新的特征
Figure DEST_PATH_IMAGE033
Figure 182338DEST_PATH_IMAGE034
,根据新的特征
Figure 535959DEST_PATH_IMAGE033
Figure 334151DEST_PATH_IMAGE034
计算得到第一注意度Att1;
将所述第一注意度Att1与下采样特征
Figure 860947DEST_PATH_IMAGE023
相乘,获得第一时序增强特征
Figure 795405DEST_PATH_IMAGE024
8.根据权利要求7所述的视频动作分类方法,其特征在于,所述根据新的特征
Figure 585507DEST_PATH_IMAGE033
Figure 870994DEST_PATH_IMAGE034
计算得到第一注意度Att1,包括:
根据新的特征
Figure 873585DEST_PATH_IMAGE033
Figure 928129DEST_PATH_IMAGE034
,在t维度,按照以下计算公式,计算得到第一注意度 Att1;
Figure DEST_PATH_IMAGE035
9.根据权利要求1所述的视频动作分类方法,其特征在于,所述视频动作分类模型通过以下方法训练得到:
获取样本输入视频序列,所述样本输入视频序列包括多个样本视频帧图像;
获取样本输入视频序列中多个样本视频帧图像的标注数据;
根据所述样本输入视频序列及标注数据,对初始视频动作分类模型进行训练,得到所述视频动作分类模型。
10.根据权利要求9所述的视频动作分类方法,其特征在于,所述根据所述样本输入视频序列及标注数据,对初始视频动作分类模型进行训练,得到所述视频动作分类模型,包括:
采用公式
Figure 219958DEST_PATH_IMAGE036
作为损失函数对所述初始视频动作分类 模型进行训练,直至所述视频动作分类模型收敛;
其中,
Figure DEST_PATH_IMAGE037
为样本输入视频序列的标注数据,
Figure 992742DEST_PATH_IMAGE038
为样本输入视频序列中各样本视频帧图像 的样本预测分类结果。
11.根据权利要求1所述的视频动作分类方法,其特征在于,所述方法还包括:
获取视频,并将视频平均切分为多个片段;
从每个片段中随机抽取一张图像,得到所述输入视频序列。
12.一种视频动作分类装置,其特征在于,包括:
视频序列获取模块,用于获取输入视频序列,所述输入视频序列包括按照时间序列排列的t帧视频帧图像,t表示时间维度;
卷积层,用于对所述输入视频序列进行卷积处理,得到卷积输出特征序列F;所述t帧视频帧图像组成的序列与所述卷积输出特征序列F一一对应;
运动增强处理模块,用于对所述卷积输出特征序列F进行运动增强处理,得到运动增强 输出特征
Figure 64603DEST_PATH_IMAGE001
,所述运动增强处理为利用卷积输出特征序列F中相邻视频帧之间的互相关特 征提取相邻视频帧之间的运动相关性;
时序增强处理模块,用于对所述运动增强输出特征
Figure 239232DEST_PATH_IMAGE001
进行时序增强处理,得到时序增 强输出特征
Figure 902295DEST_PATH_IMAGE002
,所述时序增强处理为递归循环计算相邻两个时间维度中时间维度靠前的 下采样特征对应的时序增强特征;
第一融合模块,用于将所述卷积输出特征序列F与所述时序增强输出特征进行第一融合处理,得到第一融合输出特征;所述第一融合处理为相加处理;以及
全连接层,用于对所述第一融合输出特征进行分类处理,得到分类结果
Figure 162375DEST_PATH_IMAGE003
13.一种可读存储介质,其特征在于,其上具有可执行指令,当可执行指令被执行时,使得计算机执行如权利要求1-11任一项所述的视频动作分类方法中的步骤。
14.一种视频动作分类设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有适于所述处理器执行的计算机程序指令,所述计算机程序指令被所述处理器运行时执行如权利要求1-11任一项所述的视频动作分类方法中的步骤。
CN202110250187.0A 2021-03-08 2021-03-08 视频动作分类方法、装置、可读存储介质及设备 Active CN112633260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110250187.0A CN112633260B (zh) 2021-03-08 2021-03-08 视频动作分类方法、装置、可读存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110250187.0A CN112633260B (zh) 2021-03-08 2021-03-08 视频动作分类方法、装置、可读存储介质及设备

Publications (2)

Publication Number Publication Date
CN112633260A CN112633260A (zh) 2021-04-09
CN112633260B true CN112633260B (zh) 2021-06-22

Family

ID=75297738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110250187.0A Active CN112633260B (zh) 2021-03-08 2021-03-08 视频动作分类方法、装置、可读存储介质及设备

Country Status (1)

Country Link
CN (1) CN112633260B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990126B (zh) * 2021-04-27 2021-08-13 北京世纪好未来教育科技有限公司 视频分类方法、装置、计算机设备和介质
CN113486763A (zh) * 2021-06-30 2021-10-08 上海商汤临港智能科技有限公司 车舱内人员冲突行为的识别方法及装置、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753897A (zh) * 2018-12-21 2019-05-14 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN110866509A (zh) * 2019-11-20 2020-03-06 腾讯科技(深圳)有限公司 动作识别方法、装置、计算机存储介质和计算机设备
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111209883A (zh) * 2020-01-13 2020-05-29 南京大学 一种基于多源运动特征融合的时序自适应视频分类方法
CN111259782A (zh) * 2020-01-14 2020-06-09 北京大学 基于混合多尺度时序可分离卷积操作的视频行为识别方法
CN111597929A (zh) * 2020-04-30 2020-08-28 青岛科技大学 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3608844A1 (en) * 2018-08-10 2020-02-12 Naver Corporation Methods for training a crnn and for semantic segmentation of an inputted video using said crnn

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753897A (zh) * 2018-12-21 2019-05-14 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN110866509A (zh) * 2019-11-20 2020-03-06 腾讯科技(深圳)有限公司 动作识别方法、装置、计算机存储介质和计算机设备
CN111209883A (zh) * 2020-01-13 2020-05-29 南京大学 一种基于多源运动特征融合的时序自适应视频分类方法
CN111259782A (zh) * 2020-01-14 2020-06-09 北京大学 基于混合多尺度时序可分离卷积操作的视频行为识别方法
CN111597929A (zh) * 2020-04-30 2020-08-28 青岛科技大学 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《时序增强的视频动作识别方法》;张浩博、付冬梅、周珂;《模式识别与人工智能》;20201031;第33卷(第10期);第951-958页 *

Also Published As

Publication number Publication date
CN112633260A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
US11328430B2 (en) Methods, systems, and media for segmenting images
US11861816B2 (en) System and method for detecting image forgery through convolutional neural network and method for providing non-manipulation detection service using the same
US11521039B2 (en) Method and apparatus with neural network performing convolution
CN111104962B (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
US10810435B2 (en) Segmenting objects in video sequences
US20210287378A1 (en) Foreground-background-aware atrous multiscale network for disparity estimation
US11200424B2 (en) Space-time memory network for locating target object in video content
US20200273192A1 (en) Systems and methods for depth estimation using convolutional spatial propagation networks
US11755889B2 (en) Method, system and apparatus for pattern recognition
CN111276240B (zh) 一种基于图卷积网络的多标签多模态全息脉象识别方法
CN111445418A (zh) 图像去雾处理方法、装置及计算机设备
CN112633260B (zh) 视频动作分类方法、装置、可读存储介质及设备
Yang et al. NDNet: Narrow while deep network for real-time semantic segmentation
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN114170167B (zh) 基于注意力引导上下文校正的息肉分割方法和计算机设备
CN110866938B (zh) 一种全自动视频运动目标分割方法
CN112488923A (zh) 图像超分辨率重建方法、装置、存储介质及电子设备
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
Wan et al. Generative adversarial learning for detail-preserving face sketch synthesis
Lu et al. DCELANM‐Net: Medical image segmentation based on dual channel efficient layer aggregation network with learner
WO2024041235A1 (zh) 图像处理方法、装置、设备、存储介质及程序产品
US20230073175A1 (en) Method and system for processing image based on weighted multiple kernels
CN116468979A (zh) 一种双向特征融合网络、回归预测网络、训练方法及装置
CN115439470A (zh) 息肉图像分割方法、计算机可读存储介质及计算机设备
WO2022033088A1 (zh) 图像处理方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant