CN117809381B - 视频动作分类方法、装置、设备和存储介质 - Google Patents

视频动作分类方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN117809381B
CN117809381B CN202410232129.9A CN202410232129A CN117809381B CN 117809381 B CN117809381 B CN 117809381B CN 202410232129 A CN202410232129 A CN 202410232129A CN 117809381 B CN117809381 B CN 117809381B
Authority
CN
China
Prior art keywords
module
global
pulse
feature
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410232129.9A
Other languages
English (en)
Other versions
CN117809381A (zh
Inventor
余柳涛
马征宇
周陈林
叶钰敏
黄力炜
张晗
周晖晖
田永鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202410232129.9A priority Critical patent/CN117809381B/zh
Publication of CN117809381A publication Critical patent/CN117809381A/zh
Application granted granted Critical
Publication of CN117809381B publication Critical patent/CN117809381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本申请实施例提供视频动作分类方法、装置、设备和存储介质,涉及图像处理技术领域。该方法依次在每个时间步选取目标视频帧,调用依次级联的局部时空特征模块对目标视频帧进行脉冲编码后,再进行特征提取得到局部时空特征,调用依次级联的全局时空特征模块对局部时空特征进行脉冲编码后,再进行特征提取得到全局时空特征,利用循环神经网络模块从全局时空特征中提取分类时空特征,对分类时空特征进行分类预测得到视频动作分类结果。在特征提取过程中对输入的数据进行脉冲编码,将特征提取过程中乘法运算变为加法运算,降低网络处理过程的运算复杂度,尤其是在长时视频的场景下,能够减少运算时间,提升运算效率。

Description

视频动作分类方法、装置、设备和存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及视频动作分类方法、装置、设备和存储介质。
背景技术
视频动作识别是指利用计算机视觉技术对视频中的人体动作进行自动识别和分析,视频动作识别在很多领域,如视频监控、健身辅助等都具有广泛的应用。然而相关技术中视频动作识别计算量巨大,需要大量的计算资源,进而产生较高的计算能耗,并且在长时视频场景下,动作识别过程时间复杂度高,处理速度低。
发明内容
本申请实施例的主要目的在于提出视频动作分类方法、装置、设备和存储介质,提升视频动作识别的识别效率。
为实现上述目的,本申请实施例的第一方面提出了一种视频动作分类方法,包括:
获取多个待处理视频帧,依次在每个时间步选取一个所述待处理视频帧作为目标视频帧;
调用依次级联的局部时空特征模块对所述目标视频帧进行脉冲编码后,再进行特征提取,得到最后一个所述局部时空特征模块输出的局部时空特征;
调用依次级联的全局时空特征模块对所述局部时空特征进行脉冲编码后,再进行特征提取,得到最后一个所述全局时空特征模块输出的全局时空特征;
利用循环神经网络模块从所述全局时空特征中提取分类时空特征;
将所述分类时空特征输入分类模块进行分类预测,得到视频动作分类结果。
在一些实施例,所述局部时空特征模块包括:依次连接的第一嵌入表征模块和至少一个局部提取单元,所述局部提取单元的第一层为第一局部脉冲神经元层;所述调用依次级联的局部时空特征模块对所述目标视频帧进行脉冲编码后,再进行特征提取,得到最后一个所述局部时空特征模块输出的局部时空特征,包括:
在任意一个所述局部时空特征模块中,利用所述第一嵌入表征模块对第一输入数据进行特征提取得到第一特征信息,调用依次级联的所述局部提取单元对所述第一特征信息进行特征提取,得到最后一个所述局部提取单元输出的第一输出数据;
其中,前一个所述局部时空特征模块的所述第一输出数据为后一个所述局部时空特征模块的所述第一输入数据,第一个所述局部时空特征模块的所述第一输入数据为所述目标视频帧;在任意一个所述局部提取单元中,利用所述第一局部脉冲神经元层将所述第一特征信息变为第一脉冲信号,并利用所述局部提取单元的其他层对所述第一脉冲信号进行特征提取,得到第一输出数据;
将最后一个所述局部时空特征模块的所述第一输出数据作为所述局部时空特征。
在一些实施例,所述局部提取单元依次包括被配置为通过残差连接进行输出的:局部位置编码模块、局部空间卷积模块和局部感知机模块,所述利用所述第一局部脉冲神经元层将所述第一特征信息变为第一脉冲信号,并利用所述局部提取单元的其他层对所述第一脉冲信号进行特征提取,得到第一输出数据,包括:
利用所述局部位置编码模块中所述第一局部脉冲神经元层将所述第一特征信息变为第一脉冲信号,并对所述第一脉冲信号进行位置编码,得到第一编码信号;
利用所述局部空间卷积模块将所述第一编码信号变为第二脉冲信号,并对所述第二脉冲信号进行特征提取,得到第二编码信号;
利用所述局部感知机模块对所述第二编码信号进行特征提取,得到所述第一输出数据。
在一些实施例,所述局部感知机模块包括两个级联的第一感知机单元,所述第一感知机单元包括感知机脉冲神经元层和线性层;所述利用所述局部感知机模块对所述第二编码信号进行特征提取,得到所述第一输出数据,包括:
在任意一个所述第一感知机单元中,利用所述感知机脉冲神经元层将第三输入数据变为第三脉冲信号,利用所述线性层对所述第三脉冲信号进行特征提取,得到第三输出数据,第一个所述第一感知机单元的所述第三输入数据为所述第二编码信号,最后一个所述第一感知机单元的所述第三输出数据为所述第一输出数据。
在一些实施例,所述全局时空特征模块包括:依次连接的第二嵌入表征模块和至少一个全局提取单元,所述全局提取单元的第一层为全局脉冲神经元层;所述调用依次级联的全局时空特征模块对所述局部时空特征进行脉冲编码后,再进行特征提取,得到最后一个所述全局时空特征模块输出的全局时空特征,包括:
在任意一个所述全局时空特征模块中,利用所述第二嵌入表征模块对第二输入数据进行特征提取得到第二特征信息,调用依次级联的所述全局提取单元对所述第二特征信息进行特征提取,得到最后一个所述全局提取单元输出的第二输出数据;
其中,前一个所述全局时空特征模块的所述第二输出数据为后一个所述全局时空特征模块的所述第二输入数据,第一个所述全局时空特征模块的所述第二输入数据为所述局部时空特征;在任意一个所述全局提取单元中,利用所述全局脉冲神经元层将所述第二特征信息变为第四脉冲信号,并利用所述全局提取单元的其他层对所述第四脉冲信号进行特征提取,得到第二输出数据;
将最后一个所述全局时空特征模块的所述第二输出数据作为所述全局时空特征。
在一些实施例,所述全局时空特征模块依次包括被配置为通过残差连接进行输出的:全局位置编码模块、全局脉冲自注意力模块和全局感知机模块,所述利用所述全局脉冲神经元层将所述第二特征信息变为第四脉冲信号,并利用所述全局提取单元的其他层对所述第四脉冲信号进行特征提取,得到第二输出数据,包括:
利用所述全局位置编码模块中所述全局脉冲神经元层将所述第二特征信息变为第四脉冲信号,并对所述第四脉冲信号进行位置编码,得到第三编码信号;
利用所述全局脉冲自注意力模块将所述第三编码信号变为第五脉冲信号,并对所述第五脉冲信号进行特征提取,得到第四编码信号;
利用所述全局感知机模块对所述第四编码信号进行特征提取,得到所述第二输出数据。
在一些实施例,所述全局脉冲自注意力模块包括:依次连接的第一自注意力脉冲层、第一线性归一化层、三个并行的注意力矩阵脉冲层、第二自注意力脉冲层和第二线性归一化层,所述利用所述全局脉冲自注意力模块将所述第三编码信号变为第五脉冲信号,并对所述第五脉冲信号进行特征提取,得到第四编码信号,包括:
利用所述第一自注意力脉冲层将所述第三编码信号变为所述第五脉冲信号;
利用所述第一线性归一化层得到所述第五脉冲信号的第五编码信号;所述第五编码信号包括3个通道;
将所述第五编码信号的不同通道数据送入对应的注意力矩阵脉冲层,并对所述注意力矩阵脉冲层的结果进行矩阵加法得到第六编码信号;
利用所述第二自注意力脉冲层将所述第六编码信号变为第六脉冲信号;
利用所述第二线性归一化层对所述第六脉冲信号进行归一化得到所述第四编码信号。
在一些实施例,所述待处理视频帧从待处理视频中得到;所述分类模块包括分类脉冲神经元层和线性分类层;所述将所述分类时空特征输入分类模块进行分类预测,得到视频动作分类结果,包括:
利用所述分类脉冲神经元层根据所述分类时空特征输出分类膜电位;
根据所述待处理视频的最后一个所述目标视频帧的所述分类膜电位,基于所述线性分类层得到所述视频动作分类结果。
为实现上述目的,本申请实施例的第二方面提出了一种视频动作分类装置,包括:
获取模块:用于获取多个待处理视频帧,依次在每个时间步选取一个所述待处理视频帧作为目标视频帧;
局部特征提取模块:用于调用依次级联的局部时空特征模块对所述目标视频帧进行脉冲编码后,再进行特征提取,得到最后一个所述局部时空特征模块输出的局部时空特征;
全局特征提取模块:用于调用依次级联的全局时空特征模块对所述局部时空特征进行脉冲编码后,再进行特征提取,得到最后一个所述全局时空特征模块输出的全局时空特征;
分类时空特征提取模块:用于利用循环神经网络模块从所述全局时空特征中提取分类时空特征;
分类预测模块:用于将所述分类时空特征输入分类模块进行分类预测,得到视频动作分类结果。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
本申请实施例提出的视频动作分类方法、装置、设备和存储介质,通过获取多个待处理视频帧,依次在每个时间步选取一个待处理视频帧作为目标视频帧,然后调用依次级联的局部时空特征模块对目标视频帧进行脉冲编码后,再进行特征提取,得到最后一个局部时空特征模块输出的局部时空特征,调用依次级联的全局时空特征模块对局部时空特征进行脉冲编码后,再进行特征提取,得到最后一个全局时空特征模块输出的全局时空特征,再利用循环神经网络模块从全局时空特征中提取分类时空特征,最后将分类时空特征输入分类模块进行分类预测,得到视频动作分类结果。本申请实施例按照脉冲的处理方式,在每个时间步逐一处理视频中的一个目标视频帧,依次进行局部特征提取和全局特征提取,并执行后续的预测过程,高效地提取视频中的时空动态特征,有效地对其中的动作进行识别分类,不降低视频识别的准确率。另外,在特征提取过程中对输入的数据进行脉冲编码,通过脉冲编码将特征提取过程中的乘法运算变为加法运算,从而降低特征提取的运算复杂度,尤其是在长时视频的场景下,能够减少运算时间,提升运算效率。
附图说明
图1是本申请实施例提供的视频动作分类模型结构示意图。
图2是本申请实施例提供的视频动作分类方法的一个可选的流程图。
图3是本申请实施例中局部时空特征模块的示意图。
图4是本申请实施例提供的局部提取单元的结构示意图。
图5是本申请实施例中步骤S120的流程图。
图6是本申请实施例提供的得到第一输出数据的流程图。
图7是本申请实施例中全局时空特征模块的示意图。
图8是本申请实施例提供的全局提取单元的结构示意图。
图9是本申请实施例中步骤S130的流程图。
图10是本申请实施例提供的得到第二输出数据的流程图。
图11是本申请实施例提供的得到第四编码信号的流程图。
图12为本申请实施例提供的模型训练过程中在训练集和测试集上的错误率示意图。
图13是本申请又一实施例提供的视频动作分类装置结构框图。
图14是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维过程进行模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
视频动作识别是指利用计算机视觉技术对视频中的人体动作进行自动识别和分析,判断视频中的对象做了哪种动作。视频动作识别在很多领域,如视频监控、健身辅助等都具有广泛的应用。相比于图像,视频通过额外的时间维度引入了运动信息,也带来了更多的冗余信息。因此视频动作识别任务的关键问题是如何高效地处理高度冗余的时空信息,特别是动作的长时程依赖性,提取有效的时空特征,以更好地进行识别分类。
相关技术中,由于视频的时空特性,目前用于视频动作识别的深度学习模型,例如卷积神经网络、视觉转换器模型,通常是接收一个时间维度降采样的视频块作为输入,这使得模型需要在处理二维空间信息的同时处理时间维度的信息,而视频动作识别任务比图片分类任务更复杂,通常需要更多的训练数据和更长的训练时间,使得深度网络模型需要大量的计算量,产生大量的能耗才能有效地完成视频动作识别任务。同时由于服务器计算资源的限制,深度模型单次接收的视频块输入长度有限,相关技术中的模型不适用于处理长时视频输入,即便可以将长时视频分段处理,也无法避免由于计算量大而导致的高能耗问题。因此相关技术中视频动作识别算法依然存在计算量巨大,需要大量的计算资源,进而产生较高计算能耗的问题,并且在长时视频场景下,动作识别过程时间复杂度高,处理速度低。
基于此,本申请实施例提供一种视频动作分类方法、装置、设备和存储介质,按照脉冲的处理方式,在每个时间步逐一处理视频中的一个目标视频帧,依次进行局部特征提取和全局特征提取,并执行后续的预测过程,高效地提取视频中的时空动态特征,有效地对其中的动作进行识别分类,不降低视频识别的准确率。另外,在特征提取过程中对输入的数据进行脉冲编码,通过脉冲编码将后续特征提取过程中的乘法运算变为加法运算,从而降低特征提取的运算复杂度,尤其是在长时视频的场景下,能够减少运算时间,提升运算效率。
本申请实施例提供视频动作分类方法、装置、设备和存储介质,具体通过如下实施例进行说明,首先描述本申请实施例中的视频动作分类方法。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的视频动作分类方法,涉及图像处理技术领域。本申请实施例提供的视频动作分类方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的计算机程序。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如支持视频动作分类的客户端,也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。其中,终端通过网络与服务器进行通信。该视频动作分类方法可以由终端或服务器执行,或由终端和服务器协同执行。
在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器;也可以是区块链系统中的服务节点,该区块链系统中的各服务节点之间组成点对点(Peer ToPeer,P2P)网络,P2P协议是一个运行在传输控制协议(Transmission Control Protocol,TCP)协议之上的应用层协议。终端与服务器之间可以通过蓝牙、通用串行总线(UniversalSerial Bus,USB)或者网络等通讯连接方式进行连接,本实施例在此不做限制。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
下面首先描述本申请实施例的视频动作分类模型,用于执行视频动作分类方法。
参照图1,图1是本申请实施例提供的视频动作分类模型结构示意图。图1中视频动作分类模型10包括:依次级联的至少一个局部时空特征模块100、依次级联的至少一个全局时空特征模块200、循环神经网络模块300和分类模块400。其中,视频动作分类模型10为类脑的深度脉冲神经网络,视频动作分类模型10的输入为视频帧,在每个时间步输入一个视频帧,时间步表示脉冲神经网络的仿真时间步,仿真时间步是指视频动作分类模型模拟时,连续进行的离散时间步骤,在每个时间步内,视频动作分类模型中神经元的状态和信息传递都会发生改变,本申请实施例中时间步可根据实际需求设定。图1中以两个局部时空特征模块100和两个全局时空特征模块200为例进行说明,其数量可以根据实际需求设定。
得到训练完成的视频动作分类模型后,利用视频动作分类模型进行视频动作分类识别。下面描述本申请实施例的视频动作分类方法。
图2是本申请实施例提供的视频动作分类方法的一个可选的流程图,图2中的方法可以包括但不限于包括步骤S110至步骤S150。同时可以理解的是,本实施例对图2中步骤S110至步骤S150的顺序不做具体限定,可以根据实际需求调整步骤顺序或者减少、增加某些步骤。
步骤S110:获取多个待处理视频帧,依次在每个时间步选取一个待处理视频帧作为目标视频帧。
其中,待处理视频帧是对待处理视频进行抽帧得到的,抽帧的数量可以根据实际需求设定,例如抽取T帧,T=16,则根据待处理视频得到16个待处理视频帧,可以理解的是,待处理视频帧之间存在先后顺序,顺序根据待处理视频帧在待处理视频中的时间确定。然后在每个时间步,依次将每个待处理视频帧作为目标视频帧,输入视频动作分类模型进行预测。
步骤S120:调用依次级联的局部时空特征模块对目标视频帧进行脉冲编码后,再进行特征提取,得到最后一个局部时空特征模块输出的局部时空特征。
在一实施例中,参照图3,图3是本申请实施例中局部时空特征模块的示意图。
图3中以两个依次级联的局部时空特征模块100为例进行示意,每个局部时空特征模块100均包括依次连接的第一嵌入表征模块110和至少一个局部提取单元120,其中,前一个局部时空特征模块100包括1个局部提取单元120,后一个局部时空特征模块包括2个局部提取单元120。其中,第一个第一嵌入表征模块110为卷积层和批归一化层构成,其他的第一嵌入表征模块110由脉冲神经元层、卷积层和批归一化层构成,用于实现特征空间降维、通道升维的效果。
例如第一个第一嵌入表征模块110的卷积核参数为:c=64,k=6,s=4,p=1,具体含义如下:c=64:表示卷积核的通道数为64;k=6:表示卷积核的尺寸为,即卷积核的宽度和高度都为6;s=4:表示卷积操作的步长为4,即卷积核每次滑动的距离为4个像素;p=1:表示在输入的特征图周围填充一个像素的边界。第二个第一嵌入表征模块110的卷积核参数为:c=128,k=4,s=2,p=1,具体含义如下:c=128:表示卷积核的通道数为128;k=4:表示卷积核的尺寸为/>,即卷积核的宽度和高度都为4;s=2:表示卷积操作的步长为2,即卷积核每次滑动的距离为2个像素;p=1:表示在输入的特征图周围填充一个像素的边界。其中,第一个第一嵌入表征模块110的输出图像的帧幅为224/4=56,第二个第一嵌入表征模块110的输出图像的帧幅为56/2=28,可见帧幅在缩小。
参照图4,图4是本申请实施例提供的局部提取单元的结构示意图。图4中局部提取单元120依次包括局部位置编码模块121、局部空间卷积模块122和局部感知机模块123,并且局部位置编码模块121、局部空间卷积模块122和局部感知机模块123均被配置为通过残差连接进行输出。其中,残差连接将第一层的输入通过跳跃连接的方式叠加到最后一层的输出。
具体地,在一实施例中,局部位置编码模块121包括第一局部脉冲神经元层1211和第一卷积层1212,其中第一卷积层1212可以是卷积层和批归一化层串联构成,表示为conv+BN,卷积层用于进行卷积操作来提取特征,而批归一化层则用于规范特征的分布,提高网络的稳定性和性能。其中,卷积层的尺寸卷积核尺寸为,步长为1,四面边界各填充1个0元素,通道数保持不变,使得输出的尺寸与输入一致,且通过边界的0元素对图像各个分块的位置进行编码。
在一实施例中,局部空间卷积模块122包括第二局部脉冲神经元层1221、第一逐点卷积层1222、逐通道卷积层1223、第二逐点卷积层1224和第一批归一化层1225,其中,第一逐点卷积层1222为点卷积(Pointwise convolution,PW Conv),其只有一个卷积核大小为,即只在通道维度上进行卷积操作,对应的输入和输出都是三维张量,分别表示宽度、高度和通道数。逐通道卷积层1223为深度卷积(Depthwise convolution,DW Conv),在深度卷积中,每个卷积核只有一个通道,卷积核大小可以是/>,步长为1,四面边界各填充2个0元素。对于输入的数据,深度卷积会对每个通道分别应用卷积核,生成相应的输出通道。第二逐点卷积层1224为点卷积,第一批归一化层1225表示为BN。其中,第一逐点卷积层1222和第二逐点卷积层1224的卷积核尺寸均为/>。在此过程中,通道数和帧幅尺寸一直保持不变。点卷积负责跨通道的信息整合,深度卷积则负责单个通道内局部空间内的信息整合。
在一实施例中,局部感知机模块123包括两个级联的第一感知机单元1231,其中,第一感知机单元1231包括感知机脉冲神经元层1232和线性层1233。线性层1233为线性归一化层,表示为linear+BN,用于整合跨通道的信息,且为了提升网络性能,第一组第一感知机单元1231中线性层1233将通道数扩大为4倍,第二组第一感知机单元1231中线性层1233再将通道数缩减为原先的通道数。
在一实施例中,参照图5,图5是本申请实施例中步骤S120的流程图,具体包括以下步骤S510至步骤S520。
步骤S510:在任意一个局部时空特征模块中,利用第一嵌入表征模块对第一输入数据进行特征提取得到第一特征信息,调用依次级联的局部提取单元对第一特征信息进行特征提取,得到最后一个局部提取单元输出的第一输出数据。
在一实施例中,结合图3,共级联了两个局部时空特征模块100,前一个局部时空特征模块100的第一输出数据为后一个局部时空特征模块100的第一输入数据,第一个局部时空特征模块100的第一输入数据为目标视频帧。
其中,利用第一嵌入表征模块110对第一输入数据进行特征提取,得到第一特征信息,调用依次级联的局部提取单元120对第一特征信息进行特征提取。在任意一个局部提取单元120中,利用第一局部脉冲神经元层1211将第一特征信息变为值为0-1二值的第一脉冲信号,并利用局部提取单元的其他层对第一脉冲信号进行特征提取,得到第一输出数据。
本申请实施例通过信号转换为二值的脉冲信号,利用脉冲信号的形式将深度模型中的大量矩阵乘法转变为加法,能够显著降低计算量及能耗。再一方面利用脉冲神经元层自身的时间特性,提取时序信息,可以一帧帧地处理目标视频帧,因而可以处理任意时长的待处理视频。因为脉冲神经元的输出是0-1二值信号,那么输出与权重的乘法将如下计算:如果脉冲神经元输出为0,则直接忽略;如果脉冲神经元输出为1,则将权重进行累加,这个特点被称为事件驱动特性。如此,当前层神经元i接收的输入由矩阵乘法简化为加法/>,其中,/>表示当前层神经元i和上一层神经元j之间的连接权重,/>表示上一层神经元j的输出。由此可知,本申请实施例利用脉冲神经元层构建的视频动作分类模型可将深度模型中大量矩阵乘法转变为加法,显著降低计算量及能耗。
本申请实施例中第一个局部时空特征模块100综合利用第一嵌入表征模块110和第一局部脉冲神经元层1211共同将输入的目标视频帧编码为第一脉冲信号,能够获取目标视频帧中蕴含的信息,并且无需提前对输入的数据进行特定的脉冲化等预处理。
在一实施例中,参照图6,图6是本申请实施例提供的得到第一输出数据的流程图,具体包括以下步骤S610至步骤S630。
步骤S610:利用局部位置编码模块中第一局部脉冲神经元层将第一特征信息变为第一脉冲信号,并对第一脉冲信号进行位置编码,得到第一编码信号。
在一实施例中,结合图4,局部位置编码模块121中的第一局部脉冲神经元层1211将第一特征信息变为第一脉冲信号,并利用第一卷积层1212对第一脉冲信号进行位置编码,得到第一编码信号。
步骤S620:利用局部空间卷积模块将第一编码信号变为第二脉冲信号,并对第二脉冲信号进行特征提取,得到第二编码信号。
在一实施例中,结合图4,局部空间卷积模块122中第二局部脉冲神经元层1221将第一编码信号再变为第二脉冲信号,并利用第一逐点卷积层1222、逐通道卷积层1223、第二逐点卷积层1224对第二脉冲信号进行特征提取,得到第二编码信号。
步骤S630:利用局部感知机模块对第二编码信号进行特征提取,得到第一输出数据。
在一实施例中,参照图4,在任意一个第一感知机单元1231中,利用感知机脉冲神经元层1232将第三输入数据变为第三脉冲信号,利用线性层1233对第三脉冲信号进行特征提取,得到第三输出数据。其中,第一个第一感知机单元1231的第三输入数据为局部空间卷积模块输出的第二编码信号,最后一个第一感知机单元1231输出的第三输出数据为局部提取单元120输出的第一输出数据。
步骤S520:将最后一个局部时空特征模块的第一输出数据作为局部时空特征。
其中,按照级联的顺序,两个依次级联的局部时空特征模块的最后一个结构为第二个局部时空特征模块的最后一个第一感知机单元,因此,将目标视频帧作为输入,依次经过两个级联的局部时空特征模块后,第二个局部时空特征模块的最后一个第一感知机单元输出的第一输出数据作为提取的目标视频帧的局部时空特征。
可以理解的是,上述第一局部脉冲神经元层、第二局部脉冲神经元层和第一感知机单元中的感知机脉冲神经元层都用于将输入的数据转变为脉冲形式的数据,然后再进行后续的特征提取操作,将运算过程中的矩阵乘法变为矩阵加法,从而降低运算复杂度,提高运算效率。
在得到局部时空特征后,为了获取目标视频帧的更多维度的特征信息,提高动作识别准确率,还需要基于局部时空特征提取全局时空特征。
步骤S130:调用依次级联的全局时空特征模块对局部时空特征进行脉冲编码后,再进行特征提取,得到最后一个全局时空特征模块输出的全局时空特征。
在一实施例中,参照图7,图7是本申请实施例中全局时空特征模块的示意图。
图7中以两个依次级联的全局时空特征模块200为例进行示意,每个全局时空特征模块200均包括依次连接的第二嵌入表征模块210和至少一个全局提取单元220,其中,前一个全局时空特征模块200包括4个全局提取单元220,后一个全局时空特征模块包括2个全局提取单元220。
其中,第二嵌入表征模块210为脉冲神经元层、卷积层和批归一化层构成,用于实现空间降维、通道升维的效果。例如第一个第二嵌入表征模块210的卷积核参数为:c=320,k=4,s=2,p=1,对应的输出图像的帧幅为28/2=14。第二个第二嵌入表征模块210的卷积核参数为:c=512,k=4,s=2,p=1,对应的输出图像的帧幅为14/2=7,可见通道数依次增加,输出图像的帧幅依次缩小,实现了特征空间降维、通道升维的效果。
参照图8,图8是本申请实施例提供的全局提取单元的结构示意图。图8中全局提取单元220依次包括全局位置编码模块221、全局脉冲自注意力模块222和全局感知机模块223,并且全局位置编码模块221、全局脉冲自注意力模块222和全局感知机模块223均被配置为通过残差连接进行输出。其中,残差连接将第一层的输入通过跳跃连接的方式叠加到最后一层的输出。
具体地,在一实施例中,全局位置编码模块221包括:全局脉冲神经元层2211和第二卷积层2212,其中,第二卷积层2212可以是卷积层和批归一化层串联构成。其中,全局位置编码模块221的结构和局部位置编码模块121的结构一致,仅通道数根据实际数据需求修改。
在一实施例中,全局脉冲自注意力模块222包括:第一自注意力脉冲层2221、第一线性归一化层2222(表示为:linear+BN)、三个并行的注意力矩阵脉冲层2223、第二自注意力脉冲层2224和第二线性归一化层2225(表示为:linear+BN),其中,三个并行的注意力矩阵脉冲层2223分别对应自注意力中的Q、K、V矩阵,然后在Q、K、V矩阵分别连接一个注意力矩阵脉冲层,接着将每个注意力矩阵脉冲层的结果送入矩阵运算层,将矩阵乘法变为矩阵加法,降低计算量及能耗,再将矩阵运算层的输出进行缩放,实现数值的标准化。另外,第一线性归一化层2222和第二线性归一化层2225是线性层和批归一化层串联构成。
在一实施例中,全局感知机模块223包括两个级联的第二感知机单元2231,其中,第二感知机单元2231与第一感知机单元1231一致,也包括感知机脉冲神经元层和线性层。全局感知机模块223的结构与局部感知机模块123的结构一致,仅通道数根据实际数据需求修改。
在一实施例中,参照图9,图9是本申请实施例中步骤S130的流程图,具体包括以下步骤S910至步骤S920。
步骤S910:在任意一个全局时空特征模块中,利用第二嵌入表征模块对第二输入数据进行特征提取得到第二特征信息,调用依次级联的全局提取单元对第二特征信息进行特征提取,得到最后一个全局提取单元输出的第二输出数据。
在一实施例中,结合图8,共级联了两个全局时空特征模块200,前一个全局时空特征模块200的第二输出数据为后一个全局时空特征模块200的第二输入数据,第一个全局时空特征模块200的第二输入数据为局部时空特征。
其中,利用第二嵌入表征模块210对第二输入数据进行特征提取,得到第二特征信息,调用依次级联的全局提取单元220对第二特征信息进行特征提取。在任意一个全局提取单元220中,利用全局脉冲神经元层2211将第二特征信息变为值为0-1二值的第四脉冲信号,并利用全局提取单元的其他层对第四脉冲信号进行特征提取,得到第二输出数据。
本申请实施例中第一个全局时空特征模块200综合利用第二嵌入表征模块210和全局脉冲神经元层2211共同将输出的局部时空特征编码为第四脉冲信号。
在一实施例中,参照图10,图10是本申请实施例提供的得到第二输出数据的流程图,具体包括以下步骤S1010至步骤S1030。
步骤S1010:利用全局位置编码模块中全局脉冲神经元层将第二特征信息变为第四脉冲信号,并对第四脉冲信号进行位置编码,得到第三编码信号。
在一实施例中,结合图8,全局位置编码模块221中的全局脉冲神经元层2211将第二特征信息变为第四脉冲信号,并利用第二卷积层2212对第四脉冲信号进行位置编码,得到第三编码信号。
步骤S1020:利用全局脉冲自注意力模块将第三编码信号变为第五脉冲信号,并对第五脉冲信号进行特征提取,得到第四编码信号。
在一实施例中,参照图11,图11是本申请实施例提供的得到第四编码信号的流程图,具体包括以下步骤S1110至步骤S1150:
步骤S1110:利用第一自注意力脉冲层将第三编码信号变为第五脉冲信号。
步骤S1120:利用第一线性归一化层得到第五脉冲信号的第五编码信号。
步骤S1130:将第五编码信号的不同通道数据送入对应的注意力矩阵脉冲层,并对注意力矩阵脉冲层的结果进行矩阵加法得到第六编码信号。
在一实施例中,参照图8,利用第一自注意力脉冲层2221将第三编码信号变为第五脉冲信号,再利用第一线性归一化层2222将第五脉冲信号变为第五编码信号,并且通道数扩充为原来的三倍。由于注意力机制中存在Q、K、V三个矩阵,因此将第五编码信号划分为3个通道。分别将每一个通道的通道数据送入Q、K、V矩阵中,然后在Q、K、V矩阵的结果输入送入矩阵运算层,利用矩阵运算层将矩阵乘法变为矩阵加法,得到第六编码信号。
步骤S1140:利用第二自注意力脉冲层将第六编码信号变为第六脉冲信号。
步骤S1150:利用第二线性归一化层对第六脉冲信号进行归一化得到第四编码信号。
在一实施例中,再利用第二自注意力脉冲层2224对第六编码信号进行脉冲编码,将其变为第六脉冲信号,接着利用第二线性归一化层2225对第六脉冲信号进行归一化,从而得到第四编码信号。
步骤S1030:利用全局感知机模块对第四编码信号进行特征提取,得到第二输出数据。
在一实施例中,结合图8,在任意一个第二感知机单元2231中,利用感知机脉冲神经元层将第四编码数据变为脉冲信号,利用线性层对脉冲信号进行特征提取,得到第二输出数据。其中,第一个第二感知机单元2231的输入数据为全局脉冲自注意力模块222输出的第四编码信号,最后一个第二感知机单元2231输出的为全局提取单元220输出的第二输出数据。
步骤S920:将最后一个全局时空特征模块的第二输出数据作为全局时空特征。
其中,按照级联的顺序,两个依次级联的全局时空特征模块的最后一个结构是第二个全局时空特征模块的最后一个第二感知机单元,因此,将局部时空特征作为输入,依次经过两个级联的全局时空特征模块后,第二个全局时空特征模块的最后一个第二感知机单元输出的第二输出数据作为提取的目标视频帧的全局时空特征。
可以理解的是,上述全局脉冲神经元层、第一自注意力脉冲层、注意力矩阵脉冲层、第二自注意力脉冲层和第二感知机单元中的感知机脉冲神经元层都用于将输入的数据转变为脉冲形式的数据,然后再进行后续的特征提取操作,将运算过程中的矩阵乘法变为矩阵加法,从而降低运算复杂度,提高运算效率。
下面描述本申请实施例中脉冲神经元层的数据处理原理。
本申请实施例中第一局部脉冲神经元层、第二局部脉冲神经元层、第一感知机单元中的感知机脉冲神经元层、全局脉冲神经元层、第一自注意力脉冲层、注意力矩阵脉冲层、第二自注意力脉冲层和第二感知机单元中的感知机脉冲神经元层都采用时间常数可训练的有漏损整合发放神经元(Parametric Leaky Integrate-and-Fire Neuron,PLIFNeuron)作为脉冲神经元,起到深度网络中激活层的作用。PLIF神经元的基本工作原理是膜电位受突触输入的累积与自发的漏损,当膜电位超过阈值时,神经元发放脉冲,其动力学方程如下所示。
其中,t表示仿真时间步;是神经元发放脉冲后的膜电位;/>表示在第t-1的仿真时间步时神经元发放脉冲后的膜电位,/>是神经元充电后,发放脉冲前的膜电位;表示脉冲神经元的时间常数τ,用于调控自发漏损的快慢,在PLIF神经元中a为可训练参数,以进一步增强网络的时序信息表征能力;/>表示静息电位;/>表示该神经元接收的输入。/>表示该神经元在t时刻的状态,/>表示发放脉冲,/>表示未发放脉冲;/>是单位阶跃函数,则当/>大于预先设定的脉冲发放阈值/>时,/>,即发放脉冲,同时/>被重置为/>。由于单位阶跃函数在0处不可导,所以本申请实施例中采用替代梯度法来近似反向传播时的导数。
此处所取的替代梯度函数的导数为,其中/>。不失一般性,本申请实施例设定:/>,/>,/>,/>,/>
通过上述方式,利用视频动作分类模型中不同位置的脉冲神经元将输入的数据转化为脉冲信号形式的数据,将模型中的矩阵乘法转化为矩阵加法,降低运算复杂度,提升运算效率。同时,脉冲神经元自身随时间步演化的动力学也能够提取数据中的时序信息,进一步提升分类结果的准确性。
在一实施例中,如果输入的目标视频帧的大小为,其中3表示rgb颜色通道,经过第一个第一嵌入表征模块后,变为/>,经过第二个第一嵌入表征模块后,变为/>,经过第一个第二嵌入表征模块后,变为/>,经过第二个第二嵌入表征模块后,变为/>
需要说明的是,前述全局时空特征和局部时空特征中都包含空间特征和分类时空特征。接下来描述根据全局时空特征进行后续分类预测的过程。
步骤S140:利用循环神经网络模块从全局时空特征中提取分类时空特征。
在一实施例中,循环神经网络模块包括一个网络层,网络层包括多个神经元,因此全局时空特征进入循环神经网络模块后,经过网络层的处理,得到最后的分类时空特征。在一实施例中,循环神经网络模块中神经元个数设定为1024个。其中,循环神经网络模块中第层中第i个神经元在t时刻接收的输入表示为/>,表示为:
其中,表示从第/>层中第j个神经元到第/>层中第i个神经元的可训练前馈连接权重,/>表示从第/>层中第j个神经元到第/>层中第i个神经元的可训练循环连接权重,、/>分别表示第/>层、第/>层中第j个神经元在t-1时刻的状态。
可以理解的是,视频动作分类模型中除了循环神经网络模块外,其他模块由多个网络层构成,每个网络层包括多个神经元,对于其他模块来说,其可训练循环连接权重。通过这种设置,循环神经网络模块不同于视频动作分类模型中的其他网络层,除了接收上层网络(即最后一个全局时空特征模块)的前馈输入,还利用可训练循环连接权重接收源于循环神经网络模块的内部循环自反馈输入,因此循环神经网络模块能够有效地提取长时程时序信息。本申请实施例在通过脉冲神经元自身的动力学提取分类时空特征外,还利用循环脉冲神经网络模块以更进一步地提取分类时空特征,从而提升本申请实施例的视频动作分类模型的分类任务的分类准确性。
步骤S150:将分类时空特征输入分类模块进行分类预测,得到视频动作分类结果。
在一实施例中,分类模块包括分类脉冲神经元层和线性分类层,因此将分类时空特征输入分类模块进行分类预测,得到视频动作分类结果的具体过程包括:利用分类脉冲神经元层根据分类时空特征输出分类膜电位,接着依次将待处理视频的目标视频帧送入分类模块,根据最后一个目标视频帧的分类膜电位,利用线性分类层得到待处理视频的视频动作分类结果。另外,分类模块中分类脉冲神经元层中脉冲发放阈值无限大的神经元个数设为512,线性分类层的神经元个数根据类别数确定。例如UCF101数据集中为101个。
其中,考虑到PLIF神经元属于平均发放率解码方式,其信息表达能力有限,例如仿真总步长为16,则单个神经元的平均发放率最多有等17种可能值,且与脉冲发放的时刻顺序无关,远远低于浮点数状态值的表达空间。
为了更充分地提升分类模块的分类准确率,本申请实施例的分类模块中分类脉冲神经元层采用了脉冲发放阈值无限大()的神经元,利用该神经元仅对膜电位进行累积以及自发漏损操作,由于脉冲发放阈值无限大,因此该层神经元不会发放脉冲。然后将该层的分类膜电位作为线性分类层的输入,获取当前目标视频帧的分类预测结果,由于分类膜电位所能表征的状态空间更大,使得分类模块的分类准确率更高。
在一实施例中,可以从需要进行动作识别的视频中通过抽样获取多个待处理视频,同时每个待处理视频会包括多个目标视频帧,因此按照时序顺序,利用待处理视频的最后一个目标视频帧对应的分类膜电位,得到该待处理视频的分类预测结果,再对多个分类预测结果进行投票,选取得票数最多的分类预测结果作为视频动作分类结果。
在一实施例中,视频动作分类模型在应用过程中,在需要进行动作识别的视频的时间维度通过随机选择初始帧进行5次采样,在空间维度通过随机剪切和缩放进行3次采样,如此可获取15个待处理视频,每个待处理视频可以包括16个待处理视频帧,分别将其分别作为目标视频帧,再按照上述方式进行动作分类,得到待处理视频的分类预测结果,接着对15个分类预测结果进行投票,选取得到视频动作分类结果。
本申请实施例利用局部时空特征模块获取局部时空特征,再利用全局时空特征模块的全局自注意力操作提取获取到全局空间特征,实现对视频输入时空特征的高效提取,接着利用循环神经网络模块提取全局时空特征中的分类时空特征,最后将分类时空特征输入分类模块进行分类预测,得到视频动作分类结果。
下面描述本申请实施例中视频动作分类模型的训练过程。
上述视频动作分类模型在训练时,利用通用的数据集得到训练样本。例如以公开的UCF101数据集作为样例,也可以使用如Something-Something系列、Kinetics系列等典型视频数据集。其中,UCF101数据集是一个收集自视频网站的动作识别视频数据集,提供了来自101个动作类别的13320个视频。每个视频时长不等,一般为十几秒左右,视频帧的图像大小为,帧率不固定,一般为25或29帧/秒,单个视频内仅包含一类动作。该数据集主要包括5大类真实环境下录制的动作视频,即人与物体交互、单纯的肢体运动、人与人交互、乐器演奏、体育运动。本申请实施例中可以预先获取对应的数据集和视频样本相关文件进行视频动作分类模型的训练过程。
另外,在视频动作分类模型的训练过程中,为了进一步提升视频动作分类模型的处理效率,考虑到样本在时间维度的高度冗余,对当前输入的视频样本进行时间维度的均匀降采样,抽取T帧的视频帧,例如T=16,并通过降采样、剪切、插值等空间操作,将得到的视频帧的帧幅,即图像大小统一调整为,作为视频动作分类模型输入。
进一步地,在视频动作分类模型的训练过程中,利用数据增强方法对输入的视频帧进行预处理,以增强视频动作分类模型的泛化性能。例如采用随机位置剪切、比例缩放、随机的水平和竖直方向翻转、随机角度旋转、亮度对比度颜色变化等方式对视频帧进行数据增强。
本申请实施例采用开源的神经网络深度学习开源框架SpikingJelly“惊蜇”进行训练和推理,避免采用ANN2SNN转换方法需要的超长仿真时间步而导致计算量的大幅增长。SpikingJelly框架具有简单易用、扩展性强、超高性能的主要优势,并且能够达到人类水平的ImageNet图像分类、网络部署、事件相机数据处理等。同时SpikingJelly框架可通过替代梯度的技巧直接在大规模数据集上训练脉冲神经网络,因此本申请实施例采用该框架基于数据集对视频动作分类模型进行训练和推理。
在训练过程中,基于分类模块的预测输出与真实的视频标签,利用PyTorch提供的nn.CrossEntropyLoss()函数计算损失函数,随后通过替代梯度的技巧利用随时间反向传播方法训练视频动作分类模型的参数,直至损失函数收敛或达到预定的训练轮次。在推理过程中,基于分类模块的输出,选择值最大的神经元对应的类别作为模型的分类结果,对比真实的视频标签,计算一个批次的分类正确率。在后续推理过程,基于每个待处理视频,获取不同的待处理视频分别进行推理分类,最终将所有待处理视频的分类结果通过“得票多者胜出”的策略进行聚合,得到该待处理视频的最终分类结果。
在一实施例中,在UCF101数据集上进行训练测试。首先对当前输入的视频样本进行时间维度的均匀降采样,抽取T=16帧,并将帧幅统一调整为,作为视频动作分类模型的输入。将经过时间维度平均降采样、数据增强处理、帧幅调整为/>的视频逐帧输入视频动作分类模型,经过局部时空特征模块、全局时空特征模块、循环神经网络模块和分类模块进行训练过程。其中,训练过程中,batchsize设为48,基准学习率设为4e-3,共训练600个epoch,采用交叉熵损失函数。学习率采用先线性递增(前30个epoch,初始学习率设为1e-6)后余弦下降(最终学习率为1e-6)的策略。参照图12,图12为本申请实施例提供的模型训练过程中在训练集和测试集上的错误率示意图,可见其经过训练之后,逐渐收敛的过程。训练结束后,本申请实施例提出的视频动作分类模型在训练集和测试集上的正确率分别达到97.08%和77.54%。
在一实施例中,视频动作分类模型在整个测试数据集上的平均分类正确率达82.87%。经统计,在一次示例推理过程中,视频动作分类模型中各脉冲神经元层的平均发放率为0.1029(标准差为0.0687),表示平均有10.29%的脉冲神经元会发放脉冲。这意味着将整个视频动作分类模型的乘法操作数转换为仅仅约10.29%的加法操作数,能够极大地降低计算量及能耗。特别地,以最后一个第二嵌入表征模块为例,其中的脉冲神经元层的平均发放率为0.0355,因此可将卷积操作的128450560()个乘法操作转换为约4559995个加法操作。
本申请实施例首先利用一个卷积层结合脉冲神经元层将目标视频帧编码为0-1二值的脉冲信号,通过事件驱动特性将深度网络模型中的大量矩阵乘法转变为加法,大幅降低计算量及能耗。另外利用脉冲神经元自身的动力学特性可以一帧帧接收视频输入,因而可以处理任意时长的待处理视频。可以应用于高效视频分析领域,包括视频监控、体育分析、人机交互等,尤其适用于边缘端有低功耗要求的场景。
本申请实施例还提供一种视频动作分类装置,可以实现上述视频动作分类方法,参照图13,该装置包括:
获取模块1310:用于获取多个待处理视频帧,依次在每个时间步选取一个待处理视频帧作为目标视频帧;
局部特征提取模块1320:用于调用依次级联的局部时空特征模块对目标视频帧进行脉冲编码后,再进行特征提取,得到最后一个局部时空特征模块输出的局部时空特征;
全局特征提取模块1330:用于调用依次级联的全局时空特征模块对局部时空特征进行脉冲编码后,再进行特征提取,得到最后一个全局时空特征模块输出的全局时空特征;
分类时空特征提取模块1340:用于利用循环神经网络模块从全局时空特征中提取分类时空特征;
分类预测模块1350:用于将分类时空特征输入分类模块进行分类预测,得到视频动作分类结果。
本实施例的视频动作分类装置的具体实施方式与上述视频动作分类方法的具体实施方式基本一致,在此不再赘述。
本申请实施例还提供了一种电子设备,包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
所述程序被存储在存储器中,处理器执行所述至少一个程序以实现本申请实施上述的视频动作分类方法。该电子设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant,简称PDA)、车载电脑等任意智能终端。
请参阅图14,图14示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器1401,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器1402,可以采用ROM(ReadOnlyMemory,只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory,随机存取存储器)等形式实现。存储器1402可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1402中,并由处理器1401来调用执行本申请实施例的视频动作分类方法;
输入/输出接口1403,用于实现信息输入及输出;
通信接口1404,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;和
总线1405,在设备的各个组件(例如处理器1401、存储器1402、输入/输出接口1403和通信接口1404)之间传输信息;
其中处理器1401、存储器1402、输入/输出接口1403和通信接口1404通过总线1405实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种存储介质,存储介质为存储介质,该存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述视频动作分类方法。
存储器作为一种非暂态存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例提出的视频动作分类方法、装置、设备和存储介质,通过获取多个待处理视频帧,依次在每个时间步选取一个待处理视频帧作为目标视频帧,然后调用依次级联的局部时空特征模块对目标视频帧进行脉冲编码后,再进行特征提取,得到最后一个局部时空特征模块输出的局部时空特征,调用依次级联的全局时空特征模块对局部时空特征进行脉冲编码后,再进行特征提取,得到最后一个全局时空特征模块输出的全局时空特征,再利用循环神经网络模块从全局时空特征中提取分类时空特征,最后将分类时空特征输入分类模块进行分类预测,得到视频动作分类结果。本申请实施例按照脉冲的处理方式,在每个时间步逐一处理视频中的一个目标视频帧,依次进行局部特征提取和全局特征提取,并执行后续的预测过程,高效地提取视频中的时空动态特征,有效地对其中的动作进行识别分类,不降低视频识别的准确率。另外,在特征提取过程中对输入的数据进行脉冲编码,通过脉冲编码将特征提取过程中的乘法运算变为加法运算,从而降低特征提取的运算复杂度,尤其是在长时视频的场景下,能够减少运算时间,提升运算效率。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。

Claims (8)

1.一种视频动作分类方法,其特征在于,包括:
获取多个待处理视频帧,依次在每个时间步选取一个所述待处理视频帧作为目标视频帧;
调用依次级联的局部时空特征模块对所述目标视频帧进行脉冲编码后,再进行特征提取,得到最后一个所述局部时空特征模块输出的局部时空特征;
调用依次级联的全局时空特征模块对所述局部时空特征进行脉冲编码后,再进行特征提取,得到最后一个所述全局时空特征模块输出的全局时空特征;
利用循环神经网络模块从所述全局时空特征中提取分类时空特征;
将所述分类时空特征输入分类模块进行分类预测,得到视频动作分类结果;
所述全局时空特征模块包括:依次连接的第二嵌入表征模块和至少一个全局提取单元,所述全局提取单元的第一层为全局脉冲神经元层;
在任意一个所述全局时空特征模块中,利用所述第二嵌入表征模块对第二输入数据进行特征提取得到第二特征信息,调用依次级联的所述全局提取单元对所述第二特征信息进行特征提取,得到最后一个所述全局提取单元输出的第二输出数据;
其中,前一个所述全局时空特征模块的所述第二输出数据为后一个所述全局时空特征模块的所述第二输入数据,第一个所述全局时空特征模块的所述第二输入数据为所述局部时空特征;在任意一个所述全局提取单元中,利用所述全局脉冲神经元层将所述第二特征信息变为第四脉冲信号,并利用所述全局提取单元的其他层对所述第四脉冲信号进行特征提取,得到第二输出数据;
将最后一个所述全局时空特征模块的所述第二输出数据作为所述全局时空特征;
所述全局时空特征模块依次包括被配置为通过残差连接进行输出的:全局位置编码模块、全局脉冲自注意力模块和全局感知机模块,所述利用所述全局脉冲神经元层将所述第二特征信息变为第四脉冲信号,并利用所述全局提取单元的其他层对所述第四脉冲信号进行特征提取,得到第二输出数据,包括:
利用所述全局位置编码模块中所述全局脉冲神经元层将所述第二特征信息变为第四脉冲信号,并对所述第四脉冲信号进行位置编码,得到第三编码信号;
利用所述全局脉冲自注意力模块将所述第三编码信号变为第五脉冲信号,并对所述第五脉冲信号进行特征提取,得到第四编码信号;
利用所述全局感知机模块对所述第四编码信号进行特征提取,得到所述第二输出数据;
所述全局脉冲自注意力模块包括:依次连接的第一自注意力脉冲层、第一线性归一化层、三个并行的注意力矩阵脉冲层、第二自注意力脉冲层和第二线性归一化层,所述利用所述全局脉冲自注意力模块将所述第三编码信号变为第五脉冲信号,并对所述第五脉冲信号进行特征提取,得到第四编码信号,包括:
利用所述第一自注意力脉冲层将所述第三编码信号变为所述第五脉冲信号;
利用所述第一线性归一化层得到所述第五脉冲信号的第五编码信号;所述第五编码信号包括3个通道;
将所述第五编码信号的不同通道数据送入对应的注意力矩阵脉冲层,并对所述注意力矩阵脉冲层的结果进行矩阵加法得到第六编码信号;
利用所述第二自注意力脉冲层将所述第六编码信号变为第六脉冲信号;
利用所述第二线性归一化层对所述第六脉冲信号进行归一化得到所述第四编码信号。
2.根据权利要求1所述的视频动作分类方法,其特征在于,所述局部时空特征模块包括:依次连接的第一嵌入表征模块和至少一个局部提取单元,所述局部提取单元的第一层为第一局部脉冲神经元层;所述调用依次级联的局部时空特征模块对所述目标视频帧进行脉冲编码后,再进行特征提取,得到最后一个所述局部时空特征模块输出的局部时空特征,包括:
在任意一个所述局部时空特征模块中,利用所述第一嵌入表征模块对第一输入数据进行特征提取得到第一特征信息,调用依次级联的所述局部提取单元对所述第一特征信息进行特征提取,得到最后一个所述局部提取单元输出的第一输出数据;
其中,前一个所述局部时空特征模块的所述第一输出数据为后一个所述局部时空特征模块的所述第一输入数据,第一个所述局部时空特征模块的所述第一输入数据为所述目标视频帧;在任意一个所述局部提取单元中,利用所述第一局部脉冲神经元层将所述第一特征信息变为第一脉冲信号,并利用所述局部提取单元的其他层对所述第一脉冲信号进行特征提取,得到第一输出数据;
将最后一个所述局部时空特征模块的所述第一输出数据作为所述局部时空特征。
3.根据权利要求2所述的视频动作分类方法,其特征在于,所述局部提取单元依次包括被配置为通过残差连接进行输出的:局部位置编码模块、局部空间卷积模块和局部感知机模块,所述利用所述第一局部脉冲神经元层将所述第一特征信息变为第一脉冲信号,并利用所述局部提取单元的其他层对所述第一脉冲信号进行特征提取,得到第一输出数据,包括:
利用所述局部位置编码模块中所述第一局部脉冲神经元层将所述第一特征信息变为第一脉冲信号,并对所述第一脉冲信号进行位置编码,得到第一编码信号;
利用所述局部空间卷积模块将所述第一编码信号变为第二脉冲信号,并对所述第二脉冲信号进行特征提取,得到第二编码信号;
利用所述局部感知机模块对所述第二编码信号进行特征提取,得到所述第一输出数据。
4.根据权利要求3所述的视频动作分类方法,其特征在于,所述局部感知机模块包括两个级联的第一感知机单元,所述第一感知机单元包括感知机脉冲神经元层和线性层;所述利用所述局部感知机模块对所述第二编码信号进行特征提取,得到所述第一输出数据,包括:
在任意一个所述第一感知机单元中,利用所述感知机脉冲神经元层将第三输入数据变为第三脉冲信号,利用所述线性层对所述第三脉冲信号进行特征提取,得到第三输出数据,第一个所述第一感知机单元的所述第三输入数据为所述第二编码信号,最后一个所述第一感知机单元的所述第三输出数据为所述第一输出数据。
5.根据权利要求1所述的视频动作分类方法,其特征在于,所述待处理视频帧从待处理视频中得到;所述分类模块包括分类脉冲神经元层和线性分类层;所述将所述分类时空特征输入分类模块进行分类预测,得到视频动作分类结果,包括:
利用所述分类脉冲神经元层根据所述分类时空特征输出分类膜电位;
根据所述待处理视频的最后一个所述目标视频帧的所述分类膜电位,基于所述线性分类层得到所述视频动作分类结果。
6.一种视频动作分类装置,其特征在于,包括:
获取模块:用于获取多个待处理视频帧,依次在每个时间步选取一个所述待处理视频帧作为目标视频帧;
局部特征提取模块:用于调用依次级联的局部时空特征模块对所述目标视频帧进行脉冲编码后,再进行特征提取,得到最后一个所述局部时空特征模块输出的局部时空特征;
全局特征提取模块:用于调用依次级联的全局时空特征模块对所述局部时空特征进行脉冲编码后,再进行特征提取,得到最后一个所述全局时空特征模块输出的全局时空特征;
分类时空特征提取模块:用于利用循环神经网络模块从所述全局时空特征中提取分类时空特征;
分类预测模块:用于将所述分类时空特征输入分类模块进行分类预测,得到视频动作分类结果;
所述全局时空特征模块包括:依次连接的第二嵌入表征模块和至少一个全局提取单元,所述全局提取单元的第一层为全局脉冲神经元层;
在任意一个所述全局时空特征模块中,利用所述第二嵌入表征模块对第二输入数据进行特征提取得到第二特征信息,调用依次级联的所述全局提取单元对所述第二特征信息进行特征提取,得到最后一个所述全局提取单元输出的第二输出数据;
其中,前一个所述全局时空特征模块的所述第二输出数据为后一个所述全局时空特征模块的所述第二输入数据,第一个所述全局时空特征模块的所述第二输入数据为所述局部时空特征;在任意一个所述全局提取单元中,利用所述全局脉冲神经元层将所述第二特征信息变为第四脉冲信号,并利用所述全局提取单元的其他层对所述第四脉冲信号进行特征提取,得到第二输出数据;
将最后一个所述全局时空特征模块的所述第二输出数据作为所述全局时空特征;
所述全局时空特征模块依次包括被配置为通过残差连接进行输出的:全局位置编码模块、全局脉冲自注意力模块和全局感知机模块,所述利用所述全局脉冲神经元层将所述第二特征信息变为第四脉冲信号,并利用所述全局提取单元的其他层对所述第四脉冲信号进行特征提取,得到第二输出数据,包括:
利用所述全局位置编码模块中所述全局脉冲神经元层将所述第二特征信息变为第四脉冲信号,并对所述第四脉冲信号进行位置编码,得到第三编码信号;
利用所述全局脉冲自注意力模块将所述第三编码信号变为第五脉冲信号,并对所述第五脉冲信号进行特征提取,得到第四编码信号;
利用所述全局感知机模块对所述第四编码信号进行特征提取,得到所述第二输出数据;
所述全局脉冲自注意力模块包括:依次连接的第一自注意力脉冲层、第一线性归一化层、三个并行的注意力矩阵脉冲层、第二自注意力脉冲层和第二线性归一化层,所述利用所述全局脉冲自注意力模块将所述第三编码信号变为第五脉冲信号,并对所述第五脉冲信号进行特征提取,得到第四编码信号,包括:
利用所述第一自注意力脉冲层将所述第三编码信号变为所述第五脉冲信号;
利用所述第一线性归一化层得到所述第五脉冲信号的第五编码信号;所述第五编码信号包括3个通道;
将所述第五编码信号的不同通道数据送入对应的注意力矩阵脉冲层,并对所述注意力矩阵脉冲层的结果进行矩阵加法得到第六编码信号;
利用所述第二自注意力脉冲层将所述第六编码信号变为第六脉冲信号;
利用所述第二线性归一化层对所述第六脉冲信号进行归一化得到所述第四编码信号。
7.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的视频动作分类方法。
8.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的视频动作分类方法。
CN202410232129.9A 2024-03-01 2024-03-01 视频动作分类方法、装置、设备和存储介质 Active CN117809381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410232129.9A CN117809381B (zh) 2024-03-01 2024-03-01 视频动作分类方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410232129.9A CN117809381B (zh) 2024-03-01 2024-03-01 视频动作分类方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN117809381A CN117809381A (zh) 2024-04-02
CN117809381B true CN117809381B (zh) 2024-05-14

Family

ID=90420156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410232129.9A Active CN117809381B (zh) 2024-03-01 2024-03-01 视频动作分类方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN117809381B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325099A (zh) * 2020-01-21 2020-06-23 南京邮电大学 一种基于双流时空图卷积神经网络的手语识别方法及系统
CN115409870A (zh) * 2022-09-06 2022-11-29 西安电子科技大学 基于脉冲编码可学习snn的目标跟踪方法及电子设备
WO2023151289A1 (zh) * 2022-02-09 2023-08-17 苏州浪潮智能科技有限公司 情感识别方法、训练方法、装置、设备、存储介质及产品
CN116863379A (zh) * 2023-07-11 2023-10-10 杭州电子科技大学 基于时空自注意力单步扰动的视频预测防御方法
WO2023197784A1 (zh) * 2022-04-12 2023-10-19 中兴通讯股份有限公司 图像处理方法、装置、设备、存储介质和程序产品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325099A (zh) * 2020-01-21 2020-06-23 南京邮电大学 一种基于双流时空图卷积神经网络的手语识别方法及系统
WO2023151289A1 (zh) * 2022-02-09 2023-08-17 苏州浪潮智能科技有限公司 情感识别方法、训练方法、装置、设备、存储介质及产品
WO2023197784A1 (zh) * 2022-04-12 2023-10-19 中兴通讯股份有限公司 图像处理方法、装置、设备、存储介质和程序产品
CN115409870A (zh) * 2022-09-06 2022-11-29 西安电子科技大学 基于脉冲编码可学习snn的目标跟踪方法及电子设备
CN116863379A (zh) * 2023-07-11 2023-10-10 杭州电子科技大学 基于时空自注意力单步扰动的视频预测防御方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Max-margin adaptive model for complex video pattern recognition;Yu, LT;MULTIMEDIA TOOLS AND APPLICATIONS;20150311;第74卷(第2期);第505-521页 *
局部时空特征及部件的视频人体动作识别方法研究;李阳;万方学位论文全文数据库;20151229;第1-40页 *

Also Published As

Publication number Publication date
CN117809381A (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN110929622B (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
US10834415B2 (en) Devices for compression/decompression, system, chip, and electronic device
CN111126258B (zh) 图像识别方法及相关装置
US11068722B2 (en) Method for analysing media content to generate reconstructed media content
US11144782B2 (en) Generating video frames using neural networks
CN112766172A (zh) 一种基于时序注意力机制的人脸连续表情识别方法
CN111768438B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN111178507A (zh) 图谱卷积神经网络数据处理方法及装置
CN112529149B (zh) 一种数据处理方法及相关装置
KR20210152569A (ko) 이미지 처리 방법, 이미지 처리 장치, 전자 기기 및 저장 매체
CN112883231A (zh) 短视频流行度预测方法、系统、电子设备及存储介质
CN115022637A (zh) 一种图像编码方法、图像解压方法以及装置
CN117809381B (zh) 视频动作分类方法、装置、设备和存储介质
CN115292439A (zh) 一种数据处理方法及相关设备
CN110738129A (zh) 一种基于r-c3d网络的端到端视频时序行为检测方法
CN116362397A (zh) 基于深度学习的人群疏散时间预测方法及系统
US11810351B2 (en) Video analytic processing with neuro-symbolic artificial intelligence
US11914047B2 (en) Systems and methods for predicting ionospheric electron content
CN115205753A (zh) 基于计算机视觉的轻量化视频动作理解方法及系统
US20230262237A1 (en) System and methods for video analysis
RU2773420C1 (ru) Способ обработки изображений, способ и устройство обучения
CN117636014A (zh) 图像分类方法、装置、设备和存储介质
CN113688989B (zh) 深度学习网络加速方法、装置、设备及存储介质
US20240054335A1 (en) Ai-based pattern identification transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant