CN114155475B

CN114155475B - 无人机视角下端到端的人员动作识别方法、设备及介质

Info

Publication number: CN114155475B
Application number: CN202210076711.1A
Authority: CN
Inventors: 周斯忠; 郑成俊; 蒋祁
Original assignee: Hangzhou Chenying Juntai Technology Co ltd
Current assignee: Hangzhou Chenying Juntai Technology Co ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-05-17
Anticipated expiration: 2042-01-24
Also published as: CN114155475A

Abstract

本申请公开了一种无人机视角下端到端的人员动作识别方法、设备及介质，包括：构建并训练人员动作识别网络模型；该模型包括特征提取网络、人员目标检测子网络、多目标跟踪子网络和人员动作识别子网络；将待测图像输入至该模型中，利用特征提取网络进行特征提取，提取到的特征图由三个子网络共享；利用人员目标检测子网络以包围框检测出当前帧中的目标；利用多目标跟踪子网络根据目标的外观特征向量和包围框进行帧间多目标跟踪；利用人员动作识别子网络整合同一目标在不同帧之间的运动信息，识别该目标在当前帧的动作类型。这样将检测、跟踪、识别这三个子任务集成到同一个神经网络中，避免大量重复的特征提取计算冗余，达到实时行为识别的效果。

Description

无人机视角下端到端的人员动作识别方法、设备及介质

技术领域

本发明涉及动作识别技术领域，特别是涉及一种无人机视角下端到端的人员动作识别方法、设备及介质。

背景技术

人员动作识别技术是智能监控分析系统的关键技术，结合先进无人机和高清摄像头，可形成远距离巡航预警系统，增强侦察和反击能力。这是一种时空序列动作定位任务，需要在每帧视频画面中定位该人员动作发生的位置，同时确定该动作的起止时间。

随着硬件性能的提高和GPU加速计算的应用，基于深度学习的方法在计算机视觉领域取得了极大的成功。目前，为了保证人员动作识别的精度，业界一般采用自上而下的分步方法，即先使用一个行人检测网络将无人机画面中的人员检测出来，再使用一个多目标跟踪网络进行帧间行人重识别，最后使用一个人员动作识别网络进行人员动作识别。采样三个独立的深度神经网络执行不同的任务时，存在大量的重复抽取特征的过程。特别是当画面中的人员数量较多时，多目标跟踪网络、人员动作识别网络的计算量随之线性增加。这种分步的方法消耗了大量的计算资源，在设备性能有限的情况下难以达到实时分析的要求。

另一方面，由于无人机画面中背景是动态变化的，一些基于静态背景建模从而间接识别动作的方法并不适用。同时无人机拍摄角度的变化会带来画面中人员外观的相对变化，这也影响了人员动作识别的效果。

因此，如何解决现有的人员动作识别方法难以达到实时分析要求的问题，是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种无人机视角下端到端的人员动作识别方法、设备及介质，可以避免大量重复的特征提取计算冗余，达到实时行为识别的效果。其具体方案如下：

一种无人机视角下端到端的人员动作识别方法，包括：

构建并训练人员动作识别网络模型；所述人员动作识别网络模型包括特征提取网络、人员目标检测子网络、多目标跟踪子网络和人员动作识别子网络；

将待测图像输入至所述人员动作识别网络模型中，利用所述特征提取网络进行特征提取，提取到的特征图由所述人员目标检测子网络、所述多目标跟踪子网络和所述人员动作识别子网络共享；

利用所述人员目标检测子网络以包围框的形式检测出当前帧中的人员目标，并粗略预测该人员目标的动作类别；

利用所述多目标跟踪子网络根据人员目标的外观特征向量和所述包围框进行帧间多目标跟踪；

利用所述人员动作识别子网络整合同一人员目标在不同帧之间的外观信息及运动信息，识别该人员目标在当前帧的动作类型。

优选地，在本发明实施例提供的上述人员动作识别方法中，利用所述特征提取网络进行特征提取，包括：

利用所述特征提取网络抽取并聚合所述待测图像的外观信息及语义信息，以提取特征图。

优选地，在本发明实施例提供的上述人员动作识别方法中，对于共享的特征图，所述人员目标检测子网络仅使用一个1´1的二维卷积层，输出待预测的动作类别，以及包围框的中心点坐标、宽高和置信度。

优选地，在本发明实施例提供的上述人员动作识别方法中，利用所述人员目标检测子网络以包围框的形式检测出当前帧中的人员目标，并粗略预测该人员目标的动作类别，包括：

所述人员目标检测子网络以包围框的形式检测出当前帧的人员目标，并对所述包围框的中心点和宽高进行回归；

所述人员目标检测子网络包含一个置信度子分支，通过所述置信度子分支对所述包围框的准确程度进行质量估计；

所述人员目标检测子网络对所述包围框内的人员目标进行初步动作识别，以对该人员目标的动作类别进行粗略分类。

优选地，在本发明实施例提供的上述人员动作识别方法中，利用所述多目标跟踪子网络根据人员目标的外观特征向量和所述包围框进行帧间多目标跟踪，包括：

对于共享的特征图，所述多目标跟踪子网络仅使用一个全连接层提取每个人员目标对应的外观特征向量；

使用卡尔曼滤波器对所述包围框的运动进行预测，预测出前一帧中的轨迹在当前帧的空间位置信息；

通过匈牙利匹配算法根据所述外观特征向量的余弦距离和所述空间位置信息的马氏距离计算代价矩阵，用级联匹配的方式进行帧间多目标跟踪，确定同一人员目标在不同帧中的坐标位置。

优选地，在本发明实施例提供的上述人员动作识别方法中，利用所述人员动作识别子网络整合同一人员目标在不同帧之间的外观信息及运动信息，识别该人员目标在当前帧的动作类型，包括：

利用所述人员动作识别子网络将同一人员目标在共享的特征图上的区域进行对齐，得到属于该人员目标的特征块；

使用一个二维卷积层调整通道数，上采样到原图尺寸后进行人体关键点的定位，得到关键点热力图；

在所述关键点热力图上，运用空间注意力机制与所述特征块进行逐像素相乘，通过自适应池化得到该人员目标在当前帧中的特征向量；

使用一个门控循环单元将该人员目标在不同帧的特征向量进行整合；

结合时序信息，使用一个全连接层识别该人员目标在当前帧的动作类型。

优选地，在本发明实施例提供的上述人员动作识别方法中，在训练所述人员动作识别网络模型的过程中分为两个阶段，包括：

在单帧图像输入阶段，同时对所述人员目标检测子网络、所述多目标跟踪子网络和所述人员动作识别子网络进行联合训练，其中所述人员动作识别子网络暂时去掉门控循环单元，忽略时序信息，仅对当前帧图像进行人员动作识别；

在视频序列输入阶段，将特定人员逐关键帧裁剪下来，构建人员动作序列，只训练所述人员动作识别子网络的门控循环单元和最后一个全连接层。

本发明实施例还提供了一种无人机视角下端到端的人员动作识别设备，包括处理器和存储器，其中，所述处理器执行所述存储器中存储的计算机程序时实现如本发明实施例提供的上述人员动作识别方法。

本发明实施例还提供了一种计算机可读存储介质，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现如本发明实施例提供的上述人员动作识别方法。

从上述技术方案可以看出，本发明所提供的一种无人机视角下端到端的人员动作识别方法，包括：构建并训练人员动作识别网络模型；人员动作识别网络模型包括特征提取网络、人员目标检测子网络、多目标跟踪子网络和人员动作识别子网络；将待测图像输入至人员动作识别网络模型中，利用特征提取网络进行特征提取，提取到的特征图由人员目标检测子网络、多目标跟踪子网络和人员动作识别子网络共享；利用人员目标检测子网络以包围框的形式检测出当前帧中的人员目标，并粗略预测该人员目标的动作类别；利用多目标跟踪子网络根据人员目标的外观特征向量和包围框进行帧间多目标跟踪；利用人员动作识别子网络整合同一人员目标在不同帧之间的外观信息及运动信息，识别该人员目标在当前帧的动作类型。

本发明提供的上述无人机视角下端到端的人员动作识别方法，将检测、跟踪、识别这三个子任务集成到同一个神经网络中，通过特征提取网络进行特征提取，提取到的特征图由人员目标检测子网络、多目标跟踪子网络和人员动作识别子网络三者共享，避免大量重复的特征提取计算冗余，达到实时行为识别的效果。

此外，本发明还针对人员动作识别方法提供了相应的设备及计算机可读存储介质，进一步使得上述方法更具有实用性，该设备及计算机可读存储介质具有相应的优点。

附图说明

为了更清楚地说明本发明实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的人员动作识别方法的流程图；

图2为本发明实施例提供的通过人员动作识别网络模型进行人员动作识别方法的流程示意图；

图3为本发明实施例提供的特征提取网络的结构示意图；

图4为本发明实施例提供的多目标跟踪子网络的目标跟踪流程示意图；

图5为本发明实施例提供的人员动作识别子网络的动作识别流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种无人机视角下端到端的人员动作识别方法，如图1和图2所示，包括以下步骤：

S101、构建并训练人员动作识别网络模型；人员动作识别网络模型包括特征提取网络（Extractor）、人员目标检测子网络（Detector）、多目标跟踪子网络（Tracker）和人员动作识别子网络（Classifier）；

S102、将待测图像输入至人员动作识别网络模型中，利用特征提取网络进行特征提取，提取到的特征图由人员目标检测子网络、多目标跟踪子网络和人员动作识别子网络共享；

S103、利用人员目标检测子网络以包围框（Bounding Box）的形式检测出当前帧中的人员目标，并粗略预测该人员目标的动作类别；

S104、利用多目标跟踪子网络根据人员目标的外观特征向量和包围框进行帧间多目标跟踪；

S105、利用人员动作识别子网络整合同一人员目标在不同帧之间的外观信息及运动信息，识别该人员目标在当前帧的动作类型。

在本发明实施例提供的上述人员动作识别方法中，将检测、跟踪、识别这三个子任务集成到同一个神经网络中，通过特征提取网络进行特征提取，提取到的特征图由人员目标检测子网络、多目标跟踪子网络和人员动作识别子网络三者共享，避免大量重复的特征提取计算冗余，达到实时行为识别的效果。

需要说明的是，本发明提供的上述端到端的人员动作识别方法可特定于无人机视角下。为了保证实时性，人员目标检测子网络、多目标跟踪子网络和人员动作识别子网络可以被设计为非常轻量级的子网络，能够充分利用设备的计算资源达到更好的检测效果。

在具体实施时，在本发明实施例提供的上述人员动作识别方法中，特征提取网络具有普适性和可替换性，可以根据实际需要灵活选择不同的网络架构，如VGG、ResNet、CSPNet、FPN、BiFPN、PAN等，再选择合适的网络深度与宽度，在方便任务迁移的同时，达到实时性和准确性的平衡。优选地，本发明可以采用一种基于YOLOv5骨架的特征提取网络，以此为例进行说明：

如图3所示，本发明提出的特征提取网络借鉴了FPN的思想，在backbone中进行多尺度特征提取，在neck部分进行多尺度特征聚合，增强特征的表达。

具体地，在特征提取网络的backbone特征提取部分，首先使用一个Focus模块按间隔将像素从空间维度抽取到通道维度，完成一次下采样的同时避免信息的丢失。随后依次采用相邻排列的Conv模块和BottleneckCSP模块进行多尺度特征提取。其中Conv模块由一个步长为2的卷积层、一个批归一化层、一个SiLU激活层组成，并完成一次下采样的功能。BottleneckCSP模块采用类似残差连接的思想，加强特征的提取。在最后一个Conv模块之后插入一个空间金字塔池化SPP模块，加大神经网络的感受野，减少信息的丢失。

具体地，在特征提取网络的neck特征聚合部分，采用步长为1的Conv模块调整通道数，在Unsample上采样之后与来自backbone的特征在空间维度上对齐、在通道维度上拼接，再使用BottleneckCSP模块进行特征聚合。

因此，在具体实施时，在之后的模型推理过程中，步骤S102利用特征提取网络进行特征提取，可以包括：利用特征提取网络抽取并聚合输入的待测图像的外观信息及语义信息，以提取特征图，由后续子网络共享。

在具体实施时，在本发明实施例提供的上述人员动作识别方法中，根据任务需要并优化最终效果，人员目标检测子网络可以使用anchor-based（如RetinaNet）和anchor-free（如CenterNet）的框架构建检测头。为了保证系统实时性，对于共享的特征图，本发明采用anchor-based的框架，仅使用一层1´1的标准二维卷积层构建人员目标检测子网络，其输出通道数n _a * (n _c + 5)。其中n _a为锚框（anchor box）的数量，n _c为需要预测的动作类别数，5代表预测人员目标的包围框（bounding box）的（x _c, y _c, w, h, obj），其中（x _c, y _c）为包围框的中心坐标，（w, h）为包围框的宽高，obj代表包围框的置信度。包围框虽然由（x _c,y _c, w, h, obj）五个值描述，但实际预测值为t _x、t _y、t _w、t _h、t _o，其对应关系如下：

其中，（t _x, t _y）预测的是框中心（x _c, y _c）相对于其所在Cell左上角（c _x, c _y）的偏移量，s()为Sigmoid函数。（t _w, t _h）预测的是包围框的宽高（w, h）与anchor box的宽高（p _w,p _h）的比值，而t为比值系数，使得宽高比值限制在（0 ~ t2）之间，避免bounding box与anchor box相差过大。本发明取t= 2。框置信度obj有两层含义，第一是框中是否包含目标，第二是框尺寸和位置是否准确。后者用两个框的完全交并比（Complete Intersectionover Union, CIoU）来衡量：

其中，r(*) 代表两个框中心点的欧氏距离，c代表两个框最小外接矩形的对角线距离。

因此，在具体实施时，在之后的模型推理过程中，步骤S103利用人员目标检测子网络以包围框的形式检测出当前帧中的人员目标，并粗略预测该人员目标的动作类别，具体可以包括：利用人员目标检测子网络以包围框的形式检测出当前帧的人员目标，并对包围框的中心点和宽高进行回归；所述人员目标检测子网络包含一个置信度子分支，通过所述置信度子分支对所述包围框的准确程度进行质量估计，质量估计等于预测框与真实框的重合度，即IoU；之后，在所述人员目标检测子网络中对所述包围框内的人员目标进行初步动作识别，以对该人员目标的动作类别进行粗略分类。

另外，常见的多目标跟踪算法DeepSORT由于结合行人外观特征和运动特征而取得了极佳的多目标跟踪效果，但它采用一个独立的子网络进行外观特征的抽取，随着人数的增加其速度急剧下降。为了避免大量冗余的特征提取过程，在具体实施时，在本发明实施例提供的上述人员动作识别方法中，令多目标跟踪子网络和目标检测子网络共享同一个特征图；同时为了保证实时性，对于共享的特征图，多目标跟踪子网络仅使用一层全连接层提取每个目标的外观信息，得到一个128维的外观特征向量，结合目标包围框的运动信息进行多目标跟踪：同一个目标在不同帧之间的运动状态形成一条轨迹。如图4所示，得到当前帧人员目标的包围框和特征向量后，使用一个卡尔曼滤波器预测前一帧中的轨迹在当前帧中的空间位置信息。借助匈牙利算法，根据外观特征向量的余弦距离和运动状态空间的马氏距离计算代价矩阵进行级联匹配，初步将当前帧的人员目标与轨迹相匹配。对未匹配上的目标和轨迹，根据两两之间的IoU距离计算代价矩阵进行IoU匹配，最后得到当前帧中所有成功匹配的轨迹-目标对、未匹配的轨迹、未匹配的目标。对每个匹配成功的轨迹，用其对应的目标位置信息进行卡尔曼滤波更新；对未匹配的轨迹，标记为跟踪丢失；对未匹配的目标，初始化为新的轨迹。逐帧执行跟踪算法，即可确定人员目标检测子网络检测到的同一人员目标在不同帧的位置。

因此，在具体实施时，在之后的模型推理过程中，步骤S104利用多目标跟踪子网络根据人员目标的外观特征向量和包围框进行帧间多目标跟踪，具体可以包括：首先，对于共享的特征图，多目标跟踪子网络仅使用一个全连接层提取每个人员目标对应的外观特征向量；然后，使用卡尔曼滤波器对包围框的运动进行预测，预测出前一帧中的轨迹在当前帧的空间位置信息；之后，通过匈牙利匹配算法根据外观特征向量的余弦距离和空间位置信息的马氏距离计算代价矩阵，用级联匹配的方式进行帧间多目标跟踪，确定同一人员目标在不同帧中的坐标位置。

需要注意的是，对于同一个人员目标，为了减弱因无人机视角变化带来的帧间外观差异，在具体实施时，在本发明实施例提供的上述人员动作识别方法中，在人员动作识别子网络中可以用人体关键点定位作为辅助信息，用注意力的形式提升动作识别的准确率。人员动作识别子网络引入人体关键点估计辅助分支，能够削弱因无人机拍摄视角变化带来的人员外观变化的负面影响，提升无人机视角下的人员动作检测效果。

如图5所示，在CNN特征提取网络得到特征图（Feature Map）后，根据多目标跟踪子网络确定的某个特定目标i的包围框位置信息，使用RoI Align将其在特征图上的矩形区域进行对齐，得到属于该目标的特征块（Feature Block）。使用一个标准二维卷积层调整通道数，并上采样到原图尺寸后进行人体关键点的定位。得到关键点热力图后，运用空间注意力机制与特征块进行逐像素相乘，突出强调关键点位置的特征表达，得到该目标在当前帧中的特征向量（Feature Vector）。使用一个门控循环单元（Gated Recurrent Unit, GRU），将该目标在不同帧之间的运动信息进行聚合，最终使用一个标准全连接层即可对动作类别进行预测。

为了保证整个系统的实时性，本发明仅在动作识别子网络Classifier中引入了一个标准二维卷积层、一个GRU模块、一个标准全连接层，使用更少的参数达到更好的预测效果。

因此，在具体实施时，在之后的模型推理过程中，步骤S105利用人员动作识别子网络整合同一人员目标在不同帧之间的外观信息及运动信息，识别该人员目标在当前帧的动作类型，具体可以包括：首先，利用人员动作识别子网络将同一人员目标在共享的特征图上的区域进行对齐，得到属于该人员目标的特征块；使用一个二维卷积层调整通道数，上采样到原图尺寸后进行人体关键点的定位，得到关键点热力图；然后，在关键点热力图上，运用空间注意力机制与特征块进行逐像素相乘，通过自适应池化得到该人员目标在当前帧中的特征向量；之后，使用一个门控循环单元将该人员目标在不同帧的特征向量进行整合；结合时序信息，使用一个全连接层识别该人员目标在当前帧的动作类型。

值得强调的是，针对无人机拍摄动态画面的特点，本发明的人员动作识别子网络可以以人体关键点为指导，以空间注意力的机制借助人体关键点定位作为辅助信息，以减轻无人机拍摄角度变化带来的人员外观变化的负面影响，同时使用一个GRU单元整合该目标在历史帧的时序信息，进一步提升动作识别的准确度。

在具体实施时，在本发明实施例提供的上述人员动作识别方法中，在执行步骤S101训练人员动作识别网络模型的过程中，由于人员目标检测子网络、多目标跟踪子网络和人员动作识别子网络三者共享同一个特征图，因此可以对这三个子任务进行联合训练。

具体地，对于人员目标检测子网络，其目标框（x _c, y _c, w, h）回归任务采用CIoU损失函数：

同时为了平衡正负样本，objectness分支采用Focal Loss进行优化：

其中，g、a为控制参数，本发明取g= 2，a = 0.25。为了加强网络对小尺寸目标的检测能力，对不同尺度特征层的loss要乘以一个平衡系数，即：

其中，下标i的值越小代表特征图对应的anchor box尺寸越大，本发明取e ₁= 1.0,e ₂ = 2.0, e ₃ = 4.0。由于人员检测是单一类别目标检测，故删去了通用检测器的分类分支，因此本发明中Detector的总损失为：

在实际应用中，本发明取b= 10来平衡两个分支的损失。

对于多目标跟踪子网络，需要对提取到的外观特征进行度量学习，即使得属于同一个人的特征向量在度量空间中距离越近，属于不同人的特征向量距离越远。但度量学习是一个比较困难的任务，本发明采用表征学习来优化其上界，即将不同的人看作不同的类别，对提取到的外观特征向量进行分类，从而间接提高外观特征向量的区分度。此时需要一个额外的全连接层作为辅助分类器，其输入维度为外观特征向量维度，输出维度为数据集中所有人员的数量。本发明采用交叉熵函数对网络进行优化：

其中，N代表样本数量，C代表类别（人员）数量。当序列数据较少时，需要采用图片数据来扩充数据集，或者当序列数据中有部分人员目标缺少id标注时，可将对应的标签设为-1，在优化多目标跟踪子网络的时候忽略这部分目标产生的损失即可。当数据集有多个子数据集构成，导致总体人员数量过大（如共10000人），可根据不同的子数据集构建不同的辅助分类器，在实际训练中分别优化即可。在推理过程中这些辅助优化器可以丢弃，因此不会产生任何额外计算负担。

对于人员动作识别子网络，首先采用热力图拟合的方式对人体关键点进行估计，其损失函数可使用二元交叉熵函数：

然后进行人员动作识别分类，采用交叉熵损失函数即可：

其中，A为要预测的动作类别数量。于是人员动作识别子网络的总损失为：

其中，m = 0.5。同时为了减轻训练难度，可以先去掉如图5所示的GRU模块，对提取到的人体关键点为指导的特征向量，直接使用一个全连接层进行动作识别。

在单帧图像输入阶段，人员动作识别子网络暂时去掉门控循环单元，忽略时序信息，仅对当前帧图像进行人员动作识别。在同时将人员目标检测子网络、多目标跟踪子网络和人员动作识别子网络进行联合训练时，总损失为：

在视频序列输入阶段，可以冻结特征提取网络、人员目标检测子网络、多目标跟踪子网络和人员动作识别子网络的所有参数，将特定人员逐关键帧裁剪下来，构建人员动作序列，只训练如图5所示的GRU模块和最后一层全连接层，聚合时序运动信息以达到更好的动作识别效果。

需要说明的是，本发明实施例提供的上述人员动作识别方法是一个实时的端到端推理过程，且可应用在无人机视角下。对于当前帧画面，采用特征提取网络进行特征提取，得到的特征图由三个子网络共享。首先使用人员目标检测子网络将当前帧中的所有人员目标以包围框的形式检测出来；然后使用多目标跟踪子网络提取每个目标对应的外观特征向量，再结合目标框的运动信息进行帧间匹配，从而确定同一个人员目标在不同帧中的坐标位置；最后使用人员动作识别子网络可以对该人员在特征图上的区域进行对齐，采用人体关键点定位辅助空间注意力的机制，削弱因无人机运动拍摄视角带来的行人外观变化的影响，并且使用一个GRU模块整合同一个人员目标在不同帧之间的特征向量，结合时序运动信息对人员动作进行识别和分类，准确度高。

相应地，本发明实施例还公开了一种无人机视角下端到端的人员动作识别设备，包括处理器和存储器；其中，处理器执行存储器中存储的计算机程序时实现前述实施例公开的人员动作识别方法。

关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

进一步地，本发明还公开了一种计算机可读存储介质，用于存储计算机程序；计算机程序被处理器执行时实现前述公开的人员动作识别方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的设备、存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

综上，本发明实施例提供的一种无人机视角下端到端的人员动作识别方法，包括：构建并训练人员动作识别网络模型；人员动作识别网络模型包括特征提取网络、人员目标检测子网络、多目标跟踪子网络和人员动作识别子网络；将待测图像输入至人员动作识别网络模型中，利用特征提取网络进行特征提取，提取到的特征图由人员目标检测子网络、多目标跟踪子网络和人员动作识别子网络共享；利用人员目标检测子网络以包围框的形式检测出当前帧中的人员目标，并粗略预测该人员目标的动作类别；利用多目标跟踪子网络根据人员目标的外观特征向量和包围框进行帧间多目标跟踪；利用人员动作识别子网络整合同一人员目标在不同帧之间的外观信息及运动信息，识别该人员目标在当前帧的动作类型。这样将检测、跟踪、识别这三个子任务集成到同一个神经网络中，通过特征提取网络进行特征提取，提取到的特征图由人员目标检测子网络、多目标跟踪子网络和人员动作识别子网络三者共享，避免大量重复的特征提取计算冗余，达到实时行为识别的效果。此外，本发明还针对人员动作识别方法提供了相应的设备及计算机可读存储介质，进一步使得上述方法更具有实用性，该设备及计算机可读存储介质具有相应的优点。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的人员动作识别方法、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种无人机视角下端到端的人员动作识别方法，其特征在于，包括：

构建并训练人员动作识别网络模型，以将检测、跟踪、识别这三个子任务集成到同一个神经网络中；所述人员动作识别网络模型包括特征提取网络、人员目标检测子网络、多目标跟踪子网络和人员动作识别子网络；

利用所述人员目标检测子网络以包围框的形式检测出当前帧中的人员目标，并粗略预测该人员目标的动作类别；对于共享的特征图，所述人员目标检测子网络仅使用一个1

1的二维卷积层，输出待预测的动作类别，以及包围框的中心点坐标、宽高和置信度；所述人员目标检测子网络以包围框的形式检测出当前帧的人员目标后，对所述包围框的中心点和宽高进行回归；所述人员目标检测子网络包含一个置信度子分支，通过所述置信度子分支对所述包围框的准确程度进行质量估计，质量估计为预测框与真实框的IoU；所述人员目标检测子网络对所述包围框内的人员目标进行初步动作识别，以对该人员目标的动作类别进行粗略分类；

利用所述多目标跟踪子网络根据人员目标的外观特征向量和所述包围框进行帧间多目标跟踪；对于共享的特征图，所述多目标跟踪子网络仅使用一个全连接层提取每个人员目标对应的外观特征向量；使用卡尔曼滤波器对所述包围框的运动进行预测，预测出前一帧中的轨迹在当前帧的空间位置信息；通过匈牙利匹配算法根据所述外观特征向量的余弦距离和所述空间位置信息的马氏距离计算代价矩阵进行级联匹配，初步将当前帧的人员目标与轨迹相匹配；对未匹配上的目标和轨迹，根据两两之间的IoU距离计算代价矩阵进行IoU匹配，得到当前帧中所有成功匹配的轨迹-目标对、未匹配的轨迹、未匹配的目标；对每个匹配成功的轨迹，用其对应的目标位置信息进行卡尔曼滤波更新；对未匹配的轨迹，标记为跟踪丢失；对未匹配的目标，初始化为新的轨迹；逐帧执行跟踪算法，确定人员目标检测子网络检测到的同一人员目标在不同帧的位置；

利用所述人员动作识别子网络将同一人员目标在共享的特征图上的区域进行对齐，得到属于该人员目标的特征块；使用一个二维卷积层调整通道数，上采样到原图尺寸后进行人体关键点的定位，得到关键点热力图；在所述关键点热力图上，运用空间注意力机制与所述特征块进行逐像素相乘，通过自适应池化得到该人员目标在当前帧中的特征向量；使用一个门控循环单元将该人员目标在不同帧的特征向量进行整合；结合时序信息，使用一个全连接层识别该人员目标在当前帧的动作类型。

2.根据权利要求1所述的人员动作识别方法，其特征在于，利用所述特征提取网络进行特征提取，包括：

3.根据权利要求2所述的人员动作识别方法，其特征在于，在训练所述人员动作识别网络模型的过程中分为两个阶段，包括：

4.一种无人机视角下端到端的人员动作识别设备，其特征在于，包括处理器和存储器，其中，所述处理器执行所述存储器中存储的计算机程序时实现如权利要求1至3任一项所述的人员动作识别方法。

5.一种计算机可读存储介质，其特征在于，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的人员动作识别方法。