CN117953581A

CN117953581A - 动作识别的方法、装置、电子设备及可读存储介质

Info

Publication number: CN117953581A
Application number: CN202410117932.8A
Authority: CN
Inventors: 师平
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2024-01-29
Filing date: 2024-01-29
Publication date: 2024-04-30

Abstract

本申请涉及计算机视觉技术领域，提供了一种动作识别的方法、装置、电子设备及可读存储介质。该方法包括：获取待处理的视频信息；提取视频信息得到包含时序信息的多张待处理图像；分别将多张待处理图像输入至目标检测模型中，得到各待检测目标的对应的目标图像；将所有目标图像输入至姿态估计网络模型，得到各待检测目标对应的多个关键点坐标图；基于各待检测目标对应的多个关键点坐标图获取各待检测目标对应的时空图；将各时空图输入至时空图卷积网络模型中，得到对应各待检测目标的动作识别结果。通过目标检测模型对遮挡目标的识别、使用关键点减少背景复杂和视觉变化的影响等多网络融合的方式提高对待检测目标动作识别的准确性。

Description

动作识别的方法、装置、电子设备及可读存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种动作识别的方法、装置、电子设备及可读存储介质。

背景技术

近年来，动作行为识别在计算机视觉领域已成为研究的热点，在人机交互、智能监控、视频检索等领域具有十分关键的应用价值，人体动作行为识别的核心目标是使计算机能够像人一样智能地识别视频中的人体动作类型，然而，由于视频中的动作通常面临环境复杂性、视角多变性和动作差异性大等问题，因此从视频中提取有效的动态和外观特征是一项具有挑战性的任务。

目前，视频动作识别方法主要分为两类：基于传统的特征提取方法和基于深度学习的方法。传统的特征提取方法通过人工设计的具体算法来捕获视频中的关键特征，根据特征计算的不同，传统的特征提取方法包括基于密集轨迹法、时空兴趣点法以及运动历史图像法等。深度学习方法进行动作识别是指利用深度学习技术对视频或图像序列中的人体动作进行识别和分析，从而实现对人类行为的理解和识别。但是现有的动作识别技术中，在局部遮挡、背景复杂和视觉变化的情况下，会造成动作识别准确度下降。

因此，亟需一种动作识别的方法解决现有技术中动作识别准确度不高的问题。

发明内容

有鉴于此，本申请实施例提供了一种动作识别的方法、装置、电子设备及可读存储介质，以解决现有技术中动作识别准确度低的问题。

本申请实施例的第一方面，提供了一种动作识别的方法，包括：

获取待处理的视频信息，视频信息包括多个待检测目标；

提取视频信息得到包含时序信息的多张待处理图像；

分别将多张待处理图像输入至目标检测模型中，得到各待检测目标的对应的目标图像；

将所有目标图像输入至姿态估计网络模型，得到各待检测目标对应的多个关键点坐标图；

基于各待检测目标对应的多个关键点坐标图获取各待检测目标对应的时空图；

将各时空图输入至时空图卷积网络模型中，得到对应各待检测目标的动作识别结果。

本申请实施例的第二方面，提供了一种动作识别的装置，包括：

获取模块，用于获取待处理的视频信息，视频信息包括多个待检测目标；

提取模块，用于提取视频信息得到包含时序信息的多张待处理图像；

图像处理模块，用于分别将多张待处理图像输入至目标检测模型中，得到各待检测目标的对应的目标图像；

特征提取模块，用于将所有目标图像输入至姿态估计网络模型，得到各待检测目标对应的多个关键点坐标图；

特征整合模块，用于基于各待检测目标对应的多个关键点坐标图获取各待检测目标对应的时空图；

执行模块，用于将各时空图输入至时空图卷积网络模型中，得到对应各待检测目标的动作识别结果。

本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本申请实施例的第四方面，提供了一种可读存储介质，该可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：通过获取待处理的视频信息，由于待处理的视频信息中包含有待检测目标，因此对视频信息进行处理得到对应的包含有时序信息的多张待处理图像，之后通过目标检测模型对所有待处理图像中包含的待检测目标进行识别，使得待检测目标在被遮挡的情况下可以获取对应的目标图像，之后将得到的所有目标图像输入至姿态估计网络模型中，获取各待检测目标对应的多个关键点坐标图，减少背景复杂和视觉变化等因素的影响，基于多个关键点坐标图获取各待检测目标对应的时空图，获取待检测目标的行动轨迹信息，将时空图输入至时空图卷积网络中，利用时空图包含的时间信息以及关键点信息，得到各待检测目标的动作识别结果，提高了动作识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例的应用场景的场景示意图；

图2是本申请实施例提供的一种动作识别的方法的流程示意图；

图3是一种YOLOv4-Tiny目标检测模型的示意图；

图4是本申请实施例提供的第一种优化后的YOLOv4-Tiny目标检测模型的示意图；

图5是本申请实施例提供的第二种优化后的YOLOv4-Tiny目标检测模型的示意图；

图6是本申请实施例提供的一种卷积注意力机制的示意图；

图7是本申请实施例提供的第三种优化后的YOLOv4-Tiny目标检测模型的示意图；

图8是本申请实施例提供的一种金字塔池化层的示意图；

图9是本申请实施例提供的第四种优化后的YOLOv4-Tiny目标检测模型的示意图；

图10是本申请实施例提供的第五种优化后的YOLOv4-Tiny目标检测模型的示意图；

图11是本申请实施例提供的另一种动作识别的方法的流程示意图；

图12是本申请实施例提供的一种动作识别的装置的结构示意图；

图13是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

图1是本申请实施例的应用场景的场景示意图。该应用场景可以包括第一终端设备101、第二终端设备102和第三终端设备103、服务器104以及网络105。

第一终端设备101、第二终端设备102和第三终端设备103可以是硬件，也可以是软件。当第一终端设备101、第二终端设备102和第三终端设备103为硬件时，其可以是具有显示屏且支持与服务器104通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当第一终端设备101、第二终端设备102和第三终端设备103为软件时，其可以安装在如上所述的电子设备中。第一终端设备101、第二终端设备102和第三终端设备103可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本申请实施例对此不作限制。进一步地，第一终端设备101、第二终端设备102和第三终端设备103上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器104可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器104可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本申请实施例对此不作限制。

需要说明的是，服务器104可以是硬件，也可以是软件。当服务器104为硬件时，其可以是为第一终端设备101、第二终端设备102和第三终端设备103提供各种服务的各种电子设备。当服务器104为软件时，其可以是为第一终端设备101、第二终端设备102和第三终端设备103提供各种服务的多个软件或软件模块，也可以是为第一终端设备101、第二终端设备102和第三终端设备103提供各种服务的单个软件或软件模块，本申请实施例对此不作限制。

网络105可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙(Bluetooth)、近场通信(Near FieldCommunication，NFC)、红外(Infrared)等，本申请实施例对此不作限制。

用户可以通过第一终端设备101、第二终端设备102和第三终端设备103经由网络105和服务器104建立通信连接，以接收或发送信息等。具体的，在用户将收集到待处理的视频信息导入到服务器104之后，服务器104将待提取视频信息得到包含时序信息的多张待处理图像；分别将多张待处理图像输入至目标检测模型中，得到各待检测目标的对应的目标图像；将所有目标图像输入至姿态估计网络模型，得到各待检测目标对应的多个关键点坐标图；基于各待检测目标对应的多个关键点坐标图获取各待检测目标对应的时空图；将各时空图输入至时空图卷积网络模型中，得到对应各待检测目标的动作识别结果。

需要说明的是，第一终端设备101、第二终端设备102和第三终端设备103、服务器104以及网络105的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本申请实施例对此不作限制。

图2是本申请实施例提供的一种动作识别的方法的流程示意图。图2的动作识别的方法可以由图1的终端设备或服务器执行。如图2所示，该动作识别的方法包括：

S201，获取待处理的视频信息，视频信息包括多个待检测目标。

具体的，待处理的视频信息指包含多个待检测目标的视频，例如监控录像视频、比赛录像以及电影片段等，本实施例对待处理的视频信息不做限制，根据实际情况进行选择即可。待检测目标指视频中需要被识别和检测的对象，包括人及其他动物。

S202，提取视频信息得到包含时序信息的多张待处理图像。

具体的，视频本质为一系列连续的图像帧，每一帧代表视频中的一个瞬时场景，提取视频信息得到的多张待处理图像的方法包括逐帧提取和按照时间间隔提取视频帧，其中，逐帧提取指从视频中按顺序逐个提取出每一帧图像，可以保留视频中的每一帧，用于后续的目标检测、关键点坐标提取和动作识别等任务，逐帧提取可以确保每一帧都被处理和利用，从而避免丢失关键信息；通过按照时间间隔提取视频帧，可以获得包含时序信息的多张待处理图像，例如基于视频的播放速度和所需的帧率来确定提取的间隔，可以降低数据处理的复杂度，提高处理速度，同时保留足够的时序信息用于后续的目标检测、关键点坐标提取和动作识别，例如，视频的播放速度是30帧/秒，每隔3帧提取一帧得到的多张待处理图像，在选择提取间隔时需要权衡细节保留和计算量之间的关系，需要更高的准确率，通过减小提取间隔，增加处理的数据量；提高计算效率，增大提取间隔，进而降低处理的数据量。

通过提取视频信息得到多个待处理图像，由于多个待处理图像基于视频信息通过逐帧、按照时间间隔获取的图像，因此包含有待检测目标的动作信息以及时序信息，根据当前动作信息以及时序信息多方面的信息进行动作识别，提高动作识别的准确性。

S203，分别将多张待处理图像输入至目标检测模型中，得到各待检测目标的对应的目标图像。

具体的，目标检测模型表示一种计算机视觉算法，用于在图像或视频中识别和定位特定的待检测目标，目标检测模型的基本原理是通过对输入的图像或视频进行一系列卷积、池化、归一化等操作，提取出图像中的特征信息，并使用分类器对特征进行分类和识别，在本实施例中对于目标检测模型的使用不做限制，根据实际情况进行选择即可。目标检测模型在识别到待检测目标后，确定待检测目标在待处理图像的所在位置，确定目标的位置边界框，这个边界框会根据目标的位置和大小自动调整，将待检测目标从图像中提取出来得到该待处理图像包含的目标图像。目标图像包括待处理图像中通过目标检测模型得到的位置边界框指示的图像，还包括待处理图像通过目标检测模型得到待检测目标位置后进行的裁剪、提取等操作，将单个待检测目标图像作为动作识别对象，减少待检测目标图像外的干扰，提高动作识别的准确性。

当待处理图像包括多个待检测目标，通过将多张待处理图像输入至目标检测模型，得到每个待检测目标对应的多个目标图像，由于多张待处理图像包含时序信息，因此多个目标图像包含有待检测目标的时序信息，可以提高对待检测目标动作识别的准确性。

S204，将所有目标图像输入至姿态估计网络模型，得到各待检测目标对应的多个关键点坐标图。

具体的，姿态估计网络模型指通过计算机视觉技术识别和定位图像或视频中的关键点，从而实现对于动作的识别。关键点指人或者动物的一些重要部位，例如对关节、头部、手部等作为识别的关键点，通过对待检测目标的关键点坐标进行定位，得到关键点坐标图，可以有效排除许多和行为无关的冗余信息，突出动作行为的关键信息，从而降低行为识别的复杂度，提高动作识别的准确性。关键点包括骨骼关键点，指人体骨骼结构中的重要标记点，用于描述人体的姿势和动作，对应于关节的位置，并且可以通过骨骼的形状和方向来推断出人体的姿势和动作。本实施例对姿态估计网络以及提取的关键点坐标的数量不做限制，根据实际情况进行选择即可，例如，当使用OpenPose模型进行关键点的标注，可以得到描述动作的18或25个关键点；当使用BlazePose模型进行关键点标注，得到描述动作的33个关键点。

通过将所有目标图像输入至姿态估计网络模型，得到各待检测目标对应的多个关键点坐标图，使用关键点突出动作行为的关键信息，从而降低行为识别的复杂度，提高动作识别的准确性。

S205，基于各待检测目标对应的多个关键点坐标图获取各待检测目标对应的时空图。

具体的，时空图将待检测目标的关键点图，扩展到了时域上，即将多个关键点坐标图按照时间序列形成的拓扑图，根据时空图可以体现动作的过程信息，从而更好的发掘动作的运动特征，而不仅仅是空间特征。

通过将各待检测目标对应的多个关键点坐标图依据时间序列得到各待检测目标对应的时空图，将时空图作为动作识别的输入内容，体现待检测目标的姿态信息以及动作的过程信息，进一步提高动作识别的准确性。

S206，将各时空图输入至时空图卷积网络模型中，得到对应各待检测目标的动作识别结果。

具体地，时空图卷积网络模型指将时空图多层的时空图卷积运算应用于输入数据，并在图上生成更高级别的特征图，然后，将得到的特征图通过标准的SoftMax分类器分类到相应的动作类别。时空图卷积网络模型指通过反向传播进行端到端的训练，使得模型能够自动学习到关键点之间的运动关系，从而实现对动作的准确识别，能够处理任意长度的关键点序列，并且能够自动学习到关键点之间的运动关系，提高了动作识别的准确率。

根据本申请实施例提供的技术方案，通过获取待处理的视频信息，将视频信息提取得到包含时间序列的待处理图像，简化动作识别的处理过程，为了处理待检测目标可能出现的遮挡现象，将待处理图像输入至目标检测模型中，目标检测模型为待检测目标生成边界框作为目标图像，或者将待检测目标的图像单独提取得到各待检测目标对应的目标图像，之后通过将各待检测目标对应的目标图像输入至姿态估计网络模型中，得到对应的关键点信息，使用关键点作为待检测目标各部位的位置，使得关键点坐标图可以描述待检测目标的姿态，之后将各待检测目标对应的多个关键点坐标图按照时间序列得到各待检测目标对应的时空图，体现待检测目标的动作过程，最后将各待检测目标对应的时空图通过时空图卷积网络进行动作分类得到对应各检测目标的动作识别结果，提高了动作识别的准确性。

在一些实施例中，分别将多张待处理图像输入至目标检测模型中，得到各待检测目标的对应的目标图像，包括：

获取优化后的YOLOv4-Tiny目标检测模型；

将多张待处理图像输入至优化后的YOLOv4-Tiny目标检测模型中，各待检测目标的对应的目标图像。

具体地，YOLOv4-Tiny目标检测模型主要由特征提取主干网络、特征融合颈部网络和检测头部3部分组成，特征提取主干网络主要由普通卷积、跨阶段连接(Cross-StagePartial，CSP)网络组成，其作用是将输入图像进行降采样并提取目标特征；特征融合颈部网络包括对经过CSP网络输出的结果进行特征提取的特征提取网络、卷积与上采样层以及特征融合层组成。

YOLOv4-Tiny目标检测模型的结构如图3所示，包括多个特征提取层、多个CSP网络、卷积与上采样层、特征融合层与检测头。其中YOLOv4-Tiny目标检测模型的特征提取层为DarknetConv2D_BN_Leaky，为二维卷积(Conv2D)、批量归一化(Batch Normalization，BN)和激活函数(Leaky-ReLU)的集合，通过堆叠多个DarknetConv2D_BN_Leaky，网络能够逐步从图像中提取出更高级别的特征信息，有助于增强特征表示能力并提高模型的准确性。

Conv2d是PyTorch中的一个类，用于实现二维卷积操作，它可以对输入的多个二维平面进行卷积操作提取局部特征，生成二维平面作为输出。归一化是一种数据预处理操作，用于将数值数据调整为通用比例而不扭曲其形状，BN是一个通过在深度神经网络中添加额外层，使神经网络更快、更稳定的过程，新层对来自上一层的层的输入执行标准化和规范化操作，通过标准化数据来加速训练和提高模型的稳定性。Leaky-ReLU为激活函数，将输出中的所有负值替换为零并保持正值不变，允许负输入值使用较小的非零梯度，避免正输入的梯度饱和，通过使用激活函数，将输入数据非线性化，使模型能够学习更复杂的特征。

CSP网络的作用是将特征分为两个部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果进行特征融合，有助于增强特征表示能力，提高模型的准确性和泛化能力，通过将特征分为两个部分，CSP网络能够让模型学习到更多的特征信息，从而更好地进行目标检测任务，CSP结构通过将特征分为两个部分，可以降低计算量和内存成本，从而提高了网络的计算效率和运行速度，使得YOLOv4-tiny网络在处理大规模图像数据时更加高效和可靠，加快推理速度。

卷积与上采样层(conv+UpSampling)实现输入的特征向量进行放大，使得模型在检测时能够获取到更丰富的上下文信息，从而提高检测的准确率。conv即卷积操作，通过卷积核在输入的特征向量上进行卷积，以提取特征；UpSampling操作用于将特征图放大，使得模型在检测时能够获取到更丰富的上下文信息。

特征融合层(concat)，用于将不同层的特征向量进行连接，以融合不同尺度的特征信息。通过将不同层的特征图进行连接，可以将不同尺度的特征信息融合在一起，从而使得模型能够同时获取到不同尺度的特征信息，利用浅层特征图的细节信息和深层特征图的全局信息，增强模型的表达能力，提高检测的准确率和鲁棒性，从而更好地进行目标检测。

检测头(YOLOHead)，负责处理输入的图像并输出检测结果，首先对特征图进行卷积和池化等操作，提取出物体的边界框、类别和置信度等信息，然后通过全连接层将这些信息整合在一起，输出每个物体的检测结果。

根据本申请实施例提供的技术方案，获取经过优化的YOLOv4-Tiny目标检测模型。由于YOLOv4-Tiny目标检测模型具备多尺度特征融合能力，能在较低的计算资源下运行，并能更准确地检测出不同大小和位置的目标，通过将多张待处理图像输入至该模型，模型能对图像中的多个目标进行位置标定，生成边界框，形成目标图像。通过YOLOv4-Tiny目标检测模型实现的目标检测方法对系统的算力要求低，提高了动作识别的适应性。

基于YOLOv4-Tiny目标检测模型，可进一步优化，通过增加注意力机制和不同的池化手段，实现目标检测更准确的效果。

例如，获取优化后的YOLOv4-Tiny目标检测模型，包括：

提取YOLOv4-Tiny目标检测模型的backbone部分的CSP网络；

将通道注意力机制添加至CSP网络，得到第一增强CSP网络；

将第一增强CSP网络对YOLOv4-Tiny目标检测模型的CSP网络进行替换，得到优化后的YOLOv4-Tiny目标检测模型。

具体地，通道注意力机制可以学习每个通道的重要性，并据此对通道进行加权，这样，重要的通道将获得较大的权重，而不太重要的通道将获得较小的权重。作为示例，在处理图像数据时，某些通道可能包含有关边缘或纹理的信息，而其他通道可能包含有关颜色或亮度的信息，通过应用通道注意力机制，模型可以更关注于处理这些重要的通道。通道注意力主要通过池化和卷积来分别获取2个通道的特征。首先将卷积得到的原特征采用MaxPool和AvgPool2种方法进行池化，分别得到AvgPoll特征和MaxPool特征，将其输入到多层感知机(muti-layer perception，MLP)中，并将输出的对应特征相加后通过激活函数，得到通道注意力权重分布。

根据本申请实施例提供的技术方案，通过将通道注意力机制添加至YOLOv4-Tiny目标检测模型的CSP网络，使得YOLOv4-Tiny目标检测模型可以更关注于处理重要的通道，帮助模型更好地处理输入数据，提高模型的性能和准确性。

进一步的，优化后的YOLOv4-Tiny目标检测模型如图4所示，通过多层的特征提取层提取输入的待处理图像的特征得到特征向量，之后将得到的特征向量通过增加通道注意力的CSP网络将特征分为两个部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果进行特征融合，增强特征表示能力，在其中一层的增加通道注意力的CSP网络输出第一增强特征向量，尾端增加通道注意力的CSP网络输出第二增强特征向量，之后，将第二特征向量进行特征提取后通过YOLOv4-Tiny目标检测模型的检测头得到第二特征向量的目标识别结果，以及将第二增强特征向量特征提取后经过卷积与上采样，与第一增强特征向量进行融合，得到第一融合特征向量，第一融合特征向量经过YOLOv4-Tiny目标检测模型的检测头得到第一融合特征向量的检测结果，第一融合特征向量融合了上下文特征信息，便于模型预测不同尺度的目标。

获取优化后的YOLOv4-Tiny目标检测模型，包括：

提取YOLOv4-Tiny目标检测模型的backbone部分的CSP网络；

将空间注意力机制添加至CSP网络，得到第二增强CSP网络；

将第二增强CSP网络对YOLOv4-Tiny目标检测模型的CSP网络进行替换，得到优化后的YOLOv4-Tiny目标检测模型。

具体的，空间注意力机制关注图像中不同区域的重要性，通过对图像进行划分，并学习每个区域的重要性来工作，在处理任务时，空间注意力机制会根据这些重要性选择最相关的区域进行处理。作为示例，在图像分类任务中，模型会更关注图像中的主要对象或特征，而不是背景或其他不相关的细节。通过应用空间注意力机制，模型可以更好地聚焦于这些重要的区域，从而提高分类的准确性。

根据本申请实施例提供的技术方案，通过将空间注意力机制添加至YOLOv4-Tiny目标检测模型的CSP网络，使得YOLOv4-Tiny目标检测模型可以关注图像中不同区域的重要性，依据特征不同区域的重要性进行处理，从而提高YOLOv4-Tiny目标检测模型的准确性。

进一步的，优化后的YOLOv4-Tiny目标检测模型如图5所示，通过多层的特征提取层提取输入的待处理图像的特征得到特征向量，之后将得到的特征向量通过增加空间注意力的CSP网络将特征分为两个部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果进行特征融合，增强特征表示能力，其中一层的增加空间注意力的CSP网络输出第三增强特征向量，尾端增加空间注意力的CSP网络输出第四增强特征向量，之后，将第四特征向量进行特征提取后通过YOLOv4-Tiny目标检测模型的检测头得到第四特征向量的目标识别结果，以及将第四增强特征向量特征提取后经过卷积与上采样，与第三增强特征向量进行融合，得到第二融合特征向量，第二融合特征向量经过YOLOv4-Tiny目标检测模型的检测头得到第二融合特征向量的检测结果。

获取优化后的YOLOv4-Tiny目标检测模型，包括：

提取所述YOLOv4-Tiny目标检测模型的backbone部分的CSP网络；

将卷积注意力机制添加至CSP网络，得到第三增强CSP网络，卷积注意力机制包括通道注意力机制和空间注意力机制；

将第三增强CSP网络对YOLOv4-Tiny目标检测模型的CSP网络进行替换，得到优化后的YOLOv4-Tiny目标检测模型。

具体的，卷积注意力(Convolutional Block Attention Module，CBAM)，包含2个独立的子模块，通道注意力和空间注意力，分别进行通道与空间上的关注，减少了参数和计算力的消耗，并且保证了其能够做为即插即用的模块集成到现有的网络架构中。

作为示例，卷积注意力机制的结构如图6所示，首先，通道注意力机制将卷积得到的原特征采用MaxPool和AvgPool 2种方法进行池化，分别得到AvgPoll特征和MaxPool特征，将其输入到多层感知机(muti-layer perception，MLP)中，并将输出的对应特征相加后通过激活函数，得到通道注意力权重分布作为通道增强特征向量；空间注意力机制将通道模块得到的特征与原特征向量相乘后作为输入，同样利用2种池化操作后堆叠得到2个通道的特征图，并利用卷积核进行卷积，再通过激活函数得到空间注意力权重分布得到最终的卷积增强特征向量。

根据本申请实施例提供的技术方案，通过将卷积注意力机制添加至YOLOv4-Tiny目标检测模型的CSP网络，使得YOLOv4-Tiny目标检测模型可以更好地理解输入图像，提取更有效的特征，增强了CSP的特征提取能力提高了YOLOv4-Tiny目标检测模型的抗干扰能力，进而提高了模型对于目标检测的准确性。

进一步的，优化后的YOLOv4-Tiny目标检测模型如图7所示，通过多层的特征提取层提取输入的待处理图像的特征得到特征向量，之后将得到的特征向量通过增加卷积注意力的CSP网络将特征分为两个部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果进行特征融合，增强特征表示能力，其中一层的增加卷积注意力的CSP网络输出第五增强特征向量，尾端增加卷积注意力的CSP网络输出第六增强特征向量，之后，将第六特征向量进行特征提取后通过YOLOv4-Tiny目标检测模型的检测头得到第六特征向量的目标识别结果，以及将第六增强特征向量特征提取后经过卷积与上采样，与第五增强特征向量进行融合，得到第三融合特征向量，第三融合特征向量经过YOLOv4-Tiny目标检测模型的检测头得到第三融合特征向量的检测结果。

此外，在一些实施例中，获取优化后的YOLOv4-Tiny目标检测模型，包括：

将金字塔池化层插入至YOLOv4-Tiny目标检测模型中的特征提取主干网络与特征融合颈部网络之间，得到优化后的YOLOv4-Tiny目标检测模型。

具体的，金字塔池化是目标检测算法中对高层特征进行多尺度池化进而增加感受野，提高模型表达能力的一种方法，先将输入的卷积特征分成不同的尺寸，然后每个尺寸提取固定维度的特征，最后将这些特征级联成一个固定的维度，可以提取到不同尺度的特征，然后进行特征融合，提高了模型的检测性能力。

作为示例，金字塔池化层如图8所示，首先对输入的特征向量进行3×3的卷积处理，之后使用1×1、2×2、3×3、6×6四种不同的金字塔池化尺度来传递高级语义信息，将高层信息映射到低层特征上，接着使用3×3的卷积核将特征图卷积到目标尺寸，然后利用1×1的卷积核将卷积后的结果进行通道压缩，压缩为原来通道的四分之一，最终得到输出数据。

根据本申请实施例提供的技术方案，通过将金字塔池化层插入至YOLOv4-Tiny目标检测模型中的特征提取主干网络与特征融合颈部网络之间，提取不同尺度的特征，然后进行特征融合，可以提高YOLOv4-Tiny目标检测模型的检测性能，进而实现对于动作识别的准确性。

进一步的，优化后的YOLOv4-Tiny目标检测模型如图9所示，通过多层的特征提取层提取输入的待处理图像的特征得到特征向量，之后将得到的特征向量通过CSP网络将特征分为两个部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果进行特征融合，增强特征表示能力，其中一层的CSP网络输出第七增强特征向量，尾端CSP网络输出第八增强特征向量，之后，将第八特征向量通过金字塔池化层提取不同尺度的信息，然后将进行过金字塔池化后的第八特征向量进行特征提取后通过YOLOv4-Tiny目标检测模型的检测头得到第八特征向量的目标识别结果，以及将第八增强特征向量特征提取后经过卷积与上采样，与第七增强特征向量进行融合，得到第四融合特征向量，第四融合特征向量经过YOLOv4-Tiny目标检测模型的检测头得到第四融合特征向量的检测结果。

在一些实施例中，优化后的YOLOv4-Tiny目标检测模型如图10所示，包括：

提取YOLOv4-Tiny目标检测模型的backbone部分的CSP网络；

将卷积注意力机制添加至CSP网络，得到第四增强CSP网络；

将第四增强CSP网络对YOLOv4-Tiny目标检测模型的CSP网络进行替换，得到第一优化YOLOv4-Tiny目标检测模型；

将金字塔池化层插入至第一优化YOLOv4-Tiny目标检测模型中的特征提取主干网络与特征融合颈部网络之间，得到优化后的YOLOv4-Tiny目标检测模型。

通过多层的特征提取层提取输入的待处理图像的特征得到特征向量，之后将得到的特征向量通过增加卷积注意力的CSP网络将特征分为两个部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果进行特征融合，增强特征表示能力，其中一层的增加卷积注意力的CSP网络输出第九增强特征向量，尾端增加卷积注意力的CSP网络输出第十增强特征向量，之后，将第十特征向量通过金字塔池化层提取不同尺度的信息，然后将进行过金字塔池化后的第十特征向量进行特征提取后通过YOLOv4-Tiny目标检测模型的检测头得到第十特征向量的目标识别结果，以及将第十增强特征向量特征提取后经过卷积与上采样，与第九增强特征向量进行融合，得到第五融合特征向量，第五融合特征向量经过YOLOv4-Tiny目标检测模型的检测头得到第五融合特征向量的检测结果。

在一些实施例中，将所有目标图像输入至姿态估计网络模型，得到各待检测目标对应的多个关键点坐标图，包括：

根据待检测目标对应的多个目标图像的时序信息，确定目标图像对应待检测目标关键点；

根据各目标图像对应的待检测目标关键点，得到待检测目标对应的多个关键点坐标图。

具体的，时序信息指目标图像按照提取待处理视频信息进行顺序排列得到，通过时序信息可以使模型关注待检测目标在不同时间点的位置、姿态和动作变化，进而更准确的完成对待检测目标关键点的定位。

根据本实施例提供的技术方案，通过利用待检测目标对应的多个目标图像的时序信息，能够提高对待检测目标关键点定位的准确性，确定目标图像对应待检测目标关键点，然后依据各目标图像对应的待检测目标关键点信息，得到待检测目标对应的多个关键点坐标图，显示每个关键点在空间中的位置，进而提高动作识别的准确性。

图11是本申请实施例提供的另一种动作识别的方法的流程示意图。如图11所示，当待处理的视频信息为考试监控视频，该动作识别的方法包括：

将待处理的视频信息送入优化后的YOLOv4-Tiny目标检测模型，对视频中的人体目标进行检测，并在单帧中生成人体候选框作为目标图像。当未检测到人体时，重新将视频信息送入模型进行目标检测。得到目标图像后，将其输入至姿态估计网络，以提取人体关节点位置坐标信息并生成关键点坐标图。然后，根据时间序列将多个关键点坐标图组合成对应带检测目标的时空图，并将时空图送入时空图卷积网络进行动作识别，以得到包括正常行为、扭头、举手、传递纸条等动作分类的结果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图12是本申请实施例提供的一种动作识别装置的示意图。如图12所示，该动作识别的装置包括：

获取模块1201，用于获取待处理的视频信息，视频信息包括多个待检测目标；

提取模块1202，用于提取视频信息得到包含时序信息的多张待处理图像；

图像处理模块1203，用于分别将多张待处理图像输入至目标检测模型中，得到各待检测目标的对应的目标图像；

特征提取模块1204，用于将所有目标图像输入至姿态估计网络模型，得到各待检测目标对应的多个关键点坐标图；

特征整合模块1205，用于基于各待检测目标对应的多个关键点坐标图获取各待检测目标对应的时空图；

执行模块1206，用于将各时空图输入至时空图卷积网络模型中，得到对应各待检测目标的动作识别结果。

在一些实施例中，图像处理模块具体用于获取优化后的YOLOv4-Tiny目标检测模型；将多张待处理图像输入至优化后的YOLOv4-Tiny目标检测模型中，各待检测目标的对应的目标图像。

在一些实施例中，图像处理模块具体还用于提取YOLOv4-Tiny目标检测模型的backbone部分的CSP网络；将通道注意力机制添加至CSP网络，得到第一增强CSP网络；将第一增强CSP网络对YOLOv4-Tiny目标检测模型的CSP网络进行替换，得到优化后的YOLOv4-Tiny目标检测模型。

在一些实施例中，图像处理模块具体还用于提取YOLOv4-Tiny目标检测模型的backbone部分的CSP网络；将空间注意力机制添加至CSP网络，得到第二增强CSP网络；将第二增强CSP网络对YOLOv4-Tiny目标检测模型的CSP网络进行替换，得到优化后的YOLOv4-Tiny目标检测模型。

在一些实施例中，图像处理模块具体还用于提取YOLOv4-Tiny目标检测模型的backbone部分的CSP网络；将卷积注意力机制添加至CSP网络，得到第三增强CSP网络，卷积注意力机制包括通道注意力机制和空间注意力机制；将第三增强CSP网络对YOLOv4-Tiny目标检测模型的CSP网络进行替换，得到优化后的YOLOv4-Tiny目标检测模型。

在一些实施例中，图像处理模块具体还用于将金字塔池化层插入至YOLOv4-Tiny目标检测模型中的特征提取主干网络与特征融合颈部网络之间，得到优化后的YOLOv4-Tiny目标检测模型。

在一些实施例中，特征提取模块具体用于根据待检测目标对应的多个目标图像的时序信息，确定目标图像对应待检测目标关键点；根据各目标图像对应的待检测目标关键点，得到待检测目标对应的多个关键点坐标图。

图13是本申请实施例提供的电子设备13的示意图。如图13所示，该实施例的电子设备13包括：处理器1301、存储器1302以及存储在该存储器1302中并且可在处理器1301上运行的计算机程序1303。处理器1301执行计算机程序1303时实现上述各个方法实施例中的步骤。或者，处理器1301执行计算机程序1303时实现上述各装置实施例中各模块/单元的功能。

电子设备13可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备13可以包括但不仅限于处理器1301和存储器1302。本领域技术人员可以理解，图13仅仅是电子设备13的示例，并不构成对电子设备13的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器1301可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器1302可以是电子设备13的内部存储单元，例如，电子设备13的硬盘或内存。存储器1302也可以是电子设备13的外部存储设备，例如，电子设备13上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(FlashCard)等。存储器1302还可以既包括电子设备13的内部存储单元也包括外部存储设备。存储器1302用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读存储介质(例如计算机可读存储介质)中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、电载波信号、电信信号以及软件分发介质等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种动作识别的方法，其特征在于，包括：

获取待处理的视频信息，所述视频信息包括多个待检测目标；

提取所述视频信息得到包含时序信息的多张待处理图像；

分别将多张所述待处理图像输入至目标检测模型中，得到各所述待检测目标的对应的目标图像；

将所有所述目标图像输入至姿态估计网络模型，得到各所述待检测目标对应的多个关键点坐标图；

基于各所述待检测目标对应的多个所述关键点坐标图获取各所述待检测目标对应的时空图；

将各所述时空图输入至时空图卷积网络模型中，得到对应各所述待检测目标的动作识别结果。

2.根据权利要求1所述的动作识别的方法，其特征在于，所述分别将多张所述待处理图像输入至目标检测模型中，得到各所述待检测目标的对应的目标图像，包括：

获取优化后的YOLOv4-Tiny目标检测模型；

将多张所述待处理图像输入至优化后的所述YOLOv4-Tiny目标检测模型中，各所述待检测目标的对应的目标图像。

3.根据权利要求2所述的动作识别的方法，其特征在于，所述获取优化后的YOLOv4-Tiny目标检测模型，包括：

提取所述YOLOv4-Tiny目标检测模型的backbone部分的跨阶段连接CSP网络；

将通道注意力机制添加至所述CSP网络，得到第一增强CSP网络；

将所述第一增强CSP网络对所述YOLOv4-Tiny目标检测模型的所述CSP网络进行替换，得到优化后的所述YOLOv4-Tiny目标检测模型。

4.根据权利要求2所述的动作识别的方法，其特征在于，所述获取优化后的YOLOv4-Tiny目标检测模型，包括：

提取所述YOLOv4-Tiny目标检测模型的backbone部分的CSP网络；

将空间注意力机制添加至所述CSP网络，得到第二增强CSP网络；

将所述第二增强CSP网络对所述YOLOv4-Tiny目标检测模型的所述CSP网络进行替换，得到优化后的所述YOLOv4-Tiny目标检测模型。

5.根据权利要求2所述的动作识别的方法，其特征在于，所述获取优化后的YOLOv4-Tiny目标检测模型，包括：

提取所述YOLOv4-Tiny目标检测模型的backbone部分的CSP网络；

将卷积注意力机制添加至所述CSP网络，得到第三增强CSP网络，所述卷积注意力机制包括通道注意力机制和空间注意力机制；

将所述第三增强CSP网络对所述YOLOv4-Tiny目标检测模型的所述CSP网络进行替换，得到优化后的所述YOLOv4-Tiny目标检测模型。

6.根据权利要求2所述的动作识别的方法，其特征在于，所述获取优化后的YOLOv4-Tiny目标检测模型，还包括：

将金字塔池化层插入至所述YOLOv4-Tiny目标检测模型中的特征提取主干网络与特征融合颈部网络之间，得到优化后的所述YOLOv4-Tiny目标检测模型。

7.根据权利要求1所述的动作识别的方法，其特征在于，所述将所有所述目标图像输入至姿态估计网络模型，得到各所述待检测目标对应的多个关键点坐标图，包括：

根据所述待检测目标对应的多个所述目标图像的时序信息，确定所述目标图像对应所述待检测目标关键点；

根据各所述目标图像对应的所述待检测目标关键点，得到所述待检测目标对应的多个关键点坐标图。

8.一种动作识别的装置，其特征在于，包括：

获取模块，用于获取待处理的视频信息，所述视频信息包括多个待检测目标；

提取模块，用于提取所述视频信息得到包含时序信息的多张待处理图像；

图像处理模块，用于分别将多张所述待处理图像输入至目标检测模型中，得到各所述待检测目标的对应的目标图像；

特征提取模块，用于将所有所述目标图像输入至姿态估计网络模型，得到各所述待检测目标对应的多个关键点坐标图；

特征整合模块，用于基于各所述待检测目标对应的多个关键点坐标图获取各所述待检测目标对应的时空图；

执行模块，用于将各所述时空图输入至时空图卷积网络中，得到对应各所述待检测目标的分类结果。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。