CN116434096A

CN116434096A - 时空动作检测方法、装置、电子设备及存储介质

Info

Publication number: CN116434096A
Application number: CN202111657437.9A
Authority: CN
Inventors: 葛成伟; 童俊文; 关涛; 李健
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2023-07-14
Also published as: WO2023125119A1

Abstract

本申请实施例涉及计算机视觉与深度学习领域，公开了一种时空动作检测方法、装置、电子设备及存储介质，方法包括：对连续视频帧中的各人物进行定位，得到每一视频帧中的各人物的位置信息，并对每一视频帧中的各人物的位置信息进行缓存；根据缓存的预设长度序列的视频帧中的人物位置信息，识别每一视频帧的人物动作，得到连续视频帧中每一视频帧的各人物的人物动作，实现了对长视频中的不同人物、不同动作进行准确定位与识别。

Description

时空动作检测方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉与深度学习领域，尤其涉及一种时空动作检测方法、装置、电子设备及存储介质。

背景技术

时空动作检测，是指对给定的未修剪视频，对其中的不同人物进行位置定位，并对定位到的人物进行动作分析，输出不同人物的动作类型。与动作识别相比，时空动作检测需要对每个人物进行动作建模，而动作识别是对整个视频进行动作建模，通常情况下，在分析视频中存在多个人物，不同人物的动作行为也不一致，对整个视频进行动作建模显然不合适。

时空动作检测包含空间域人物定位及时序动作分析两个子任务。现有的时空动作检测方法可以分为两阶段和单阶段的。然而，无论是两阶段还是单阶段，当前动作识别绝大部分是以时序片段作为整体进行动作建模，对该片段输出一个动作类别，存在采样策略选取不合适、采样长度选取过长、无法准确定位动作帧以及时序特征表述差，从而导致不能对长视频中的不同人物，不同动作进行准确定位与识别的问题。

发明内容

本发明的目的在于解决上述问题，提供一种时空动作检测方法、装置、电子设备及存储介质，解决了采样策略选取不合适、采样长度选取过长、无法准确定位动作帧以及时序特征表述差的问题，实现了对长视频中的不同人物，不同动作进行准确定位与识别的目的。

为解决上述问题，本申请的实施例提供了一种时空动作检测方法，方法包括：对连续视频帧中的各人物进行定位，得到每一视频帧中的各人物的位置信息，并对每一视频帧中的各人物的位置信息进行缓存；根据缓存的预设长度序列的视频帧中的人物位置信息，识别每一视频帧的人物动作，得到连续视频帧中每一视频帧的各人物的人物动作。

为解决上述问题，本申请的实施例提供了一种时空动作检测装置，方法包括：位置识别模块，用于对连续视频帧中的各人物进行定位，得到每一视频帧中的各人物的位置信息，并对每一视频帧中的各人物的位置信息进行缓存；动作识别模块，用于根据缓存的预设长度序列的视频帧中的人物位置信息，识别每一视频帧的人物动作，得到连续视频帧中每一视频帧的各人物的人物动作。

为解决上述问题，本申请的实施例还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述时空动作检测方法。

为解决上述问题，本申请的实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述时空动作检测方法。

在本申请实施例中，首先对人物进行定位获取位置信息，并对获取的各人物的位置信息进行缓存，再根据缓存的预设长度序列的视频帧中的人物位置信息，识别每一视频帧的人物动作，得到连续视频帧中每一视频帧的各人物的人物动作，解决了采样策略、采样长度选取的问题，对每个视频帧进行动作判别，可以区分视频帧序列的背景与动作前景信息，增强了网络模型的时序特征表述能力。实现了对长视频中的不同人物、不同动作进行准确定位与识别。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本申请一实施例提供的时空动作检测方法的流程图；

图2是本申请一实施例提供的网络模型集成推理的流程图；

图3是本申请一实施例提供时的空动作检测装置的结构示意图；

图4是本申请一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本申请的一实施例涉及一种时空动作检测方法，通过先对人物进行定位获取位置信息，并对获取的各人物的位置信息进行缓存，再根据缓存的预设长度序列的视频帧中的人物位置信息，识别每一视频帧的人物动作，得到连续视频帧中每一视频帧的各人物的人物动作，解决了采样策略、采样长度选取的问题，对每个视频帧进行动作判别，可以区分视频帧序列的背景与动作前景信息，增强了网络模型的时序特征表述能力。实现了对长视频中的不同人物、不同动作进行准确定位与识别。

在一个例子中，可以通过预先训练好的目标跟踪网络模型，对连续视频帧中的各人物进行定位；其中，目标跟踪网络模型用于对每一视频帧中的各人物的位置信息进行检测。将目标跟踪网络模型输出的各人物的位置信息存储在缓冲矩阵中，缓冲矩阵的每一个元素

表示j个人物在第i帧中的位置信息，j表示元素所在的行，i表示元素所在的列。将缓冲矩阵中存储的各人物的位置信息输入预先训练好的动作识别模型，根据动作识别模型的输出结果，得到连续视频帧中每一视频帧的各人物的人物动作；其中，动作识别模型用于根据预设长度序列的视频帧中的人物位置信息，识别每一视频帧的人物动作。

因此，在一个例子中，时空动作检测方法可以包含两个阶段：网络模型训练阶段和网络模型推理阶段。具体说明如下：

在网络模型训练阶段中，包括目标跟踪网络模型的训练和动作识别模型的训练，其中，目标跟踪网络模型训练的基本步骤如下：

(1)网络模型设计：目标跟踪网络模型是对视频中的人物进行定位并进行时序关联，常用的多目标跟踪网络，如DeepSORT、CenterTrack、FairMOT等均可使用；

(2)样本标注：使用单类别目标标签，根据不同人物不同目标id来对视频中人物进行矩形框标注；

(3)模型训练：使用标注的人物样本进行模型训练，训练迭代到一定次数后得到人物目标跟踪模型文件。

动作识别模型训练的基本步骤如下：

(1)整个网络模型包括时序特征提取主干、密集预测动作分类头；其中，任何时序网络模型均可作为本发明的主干，如3D卷积网路、双流卷积网络等；

a.密集预测动作分类头用来判别单个视频帧所属的动作类别，假定包含背景的动作类别数为N，主干网络输出的特征维度为B×C×L×H×W,其中B表示批处理数，C表示通道数，L表示视频序列长度，H表示特征高度，W表示特征宽度，进行如下处理：

b.对主干网络输出特征按H、W维度进行全局平均池化操作，，即头处理过程，输出维度B×C×L×1×1；

c.对步骤a的输出进行全连接操作，即，将输入维度和输出维度进行连接，输出维度B×NL，即输出通道数为NL；

d.对步骤b的输出进行重排操作，，即，将第二部得出的通道数NL分为两个部分，一部分为L,另一部分为N，输出维度B×N×L；

e.对步骤c的输出按照第二维度进行softmax交叉熵损失函数计算，即对视频序列的每一帧进行损失函数计算；

(2)样本标注：首先按照目标id和矩形框对视频中的每个人物提取人物样本，每个人物id形成一个样本集；其次对每个人物样本集标注每个视频帧所对应的动作类别；

(3)模型训练：对每个人物样本集，选择固定长度L的连续帧序列输入网络，随机选择帧序列的起始位置，训练迭代到一定次数后得到视频帧动作识别模型文件。

网络模型推理模块利用训练得到的模型文件进行推理，对视频中不同人物、不同动作进行准确定位与识别。

本申请实施例提供的时空动作检测方法，包含系统初始化、视频帧输入、目标跟踪推理、动作识别推理、结果输出五个部分，各部分的具体功能如下：

系统初始化，加载离线训练的目标跟踪网络模型和动作识别模型，初始化缓冲矩阵

分配必须的变量及存储空间。

视频帧输入，从磁盘加载离线视频并读取视频帧作为输入源，也可以通过rtmp或rtsp读取网络视频流作为输入源。

目标跟踪推理，根据训练好的目标跟踪网络模型输出人物及其id，完成缓冲矩阵

的更新。

动作识别推理，根据训练好的动作识别模型及缓冲矩阵

对不同人物进行动作识别，获取动作类型。

结果输出，输出不同人物的动作轨迹线及其动作类型。

下面对本实施例中的时空动作检测方法的实现细节进行具体的说明，以下内容仅为方便理解本方案的实现细节，并非实施本方案的必须。具体流程如图1所示，可包括如下步骤：

在步骤101中，对连续视频帧中的各人物进行定位，得到每一视频帧中的各人物的位置信息，并对每一视频帧中的各人物的位置信息进行缓存。

具体地说，将视频帧输入到目标跟踪网络模型中，目标跟踪网络模型输出当前帧各人物的位置信息，服务器将目标跟踪网络模型输出的各人物的位置信息存储在缓冲矩阵中，缓冲矩阵的每一个元素

表示j个人物在第i帧中的位置信息，j表示元素所在的行，i表示元素所在的列，具体如下：

其中，服务器通过以下方式更新缓冲矩阵：在目标跟踪网络模型输出的当前视频帧中的人物不存在于缓冲矩阵的情况下，在缓冲矩阵中增加与人物对应的行，并将人物在当前视频帧中的位置信息更新在缓冲矩阵中；在目标跟踪网络模型输出的当前视频帧中的人物存在于缓冲矩阵的情况下，将人物在当前视频帧中的位置信息更新在缓冲矩阵中；在缓冲矩阵中的行所对应的人物未包括在目标跟踪网络模型输出的在当前视频帧中检测到的人物的情况下，删除未包括的人物所对应的行数据。

在一个例子中，服务器对给定的视频帧，使用目标跟踪网络模型推理获取当前帧的人物及其id信息。若目标id在缓冲矩阵

中不存在，则/>

新增一行目标id，并根据帧号更新目标信息，即目标的坐标位置信息；若目标id在缓冲矩阵/>

中已经存在，则根据目标id及帧号追加目标信息；若/>

中的目标id在当前帧检测结果不存在，说明目标消失，则删除

中该目标id信息，即一整行关于上述目标id的位置信息全部删除。

在一个例子中，采用FairMOT网络模型进行人物目标跟踪,可以兼顾性能与推理速度。

在步骤102中，根据缓存的预设长度序列的视频帧中的人物位置信息，识别每一视频帧的人物动作，得到所述连续视频帧中每一视频帧的各人物的人物动作。

在一个例子中，在将目标跟踪网络模型输出的各人物的位置信息输入预先训练好的动作识别模型之前，还包括：对缓冲矩阵中每一行的长度进行检测，确定长度大于或等于预设长度序列的第一目标行，即对缓冲矩阵

进行序列长度有效性检查，例如，若目标id的序列长度大于或等于预设长度序列L，则将目标id的前L帧结果输入到动作识别模型，输出每个视频帧的动作识别结果，同时删除前T个视频帧的目标信息，将后T个/>

置为空。

另外，获取缓冲矩阵中长度小于预设长度序列的第二目标行；将第二目标行对应的人物的上一次检测到的人物动作，作为当前视频帧的人物动作，例如，若目标id的序列长度小于L，则将上述目标id上一次的预测结果作为当前帧的动作识别结果。

将目标跟踪网络模型输出的各人物的位置信息输入预先训练好的动作识别模型，方法包括：将连续的L个视频帧中的目标人物的位置信息输入预先训练好的动作识别模型，得到目标人物在L个视频帧中的每一视频帧的人物动作；将连续的P个视频帧中的目标人物的位置信息输入预先训练好的动作识别模型，得到目标人物在P个视频帧中的每一视频帧的人物动作；其中，P为预设长度序列，且P个视频帧中的前T个视频帧与L个视频帧中的后T个视频帧重叠，T小于预设长度序列。

在一个例子中,在动作识别阶段，对部分人物序列进行重叠预测，重叠长度为T，T的取值为L/2,例如，对目标id的第1-32帧进行一次动作识别，得到目标id第1-32帧的人物动作，再对目标id的第16-48帧进行一次动作识别，得到目标id第16-48帧的人物动作，因此，对目标id的第16-32帧进行了重叠预测。需要说明的是本申请实施例不对T(T<L)和L的取值作具体限定。

进一步地，根据目标人物在L个视频帧中的每一视频帧的人物动作，以及目标人物在P个视频帧中的每一视频帧的人物动作，得到目标人物在每一视频帧的人物动作；其中，根据识别到的目标人物在重叠的视频帧的多个人物动作的置信度，确定目标人物在重叠的视频帧的最终人物动作。

在一个例子中，针对重叠区域的视频帧，选择分类输出置信度较高的动作分类结果作为最终的人物动作识别结果。在动作识别阶段，对人物序列进行重叠预测，增加了动作识别模型预测的准确性。

进一步地，在通过预先训练好的目标跟踪网络模型，对连续视频帧中的各人物进行定位之前，生成初始的动作识别模型，并根据各人物的样本集训练初始的动作识别模型，得到训练好的动作识别模型；其中，动作识别模型包括用于提取时序特征的主干网络和用于预测每帧的人物动作的密集预测动作分类头；主干网络输出的特征维度包括：B×C×L×H×W,其中B表示批处理数，C表示通道数，L表示预设长度序列的视频帧，H表示深度特征的高度，W表示深度特征的宽度；生成初始的动作识别模型，包括：将主干网络的输出信息按H、W维度进行全局平均池化操作，将输出维度更新为B×C×L×1×1：将输出维度更新后的输出信息进行全连接和重排操作，得到输出维度为B×N×L的输出信息，N表示动作类别数；根据动作类别数对输出维度为B×N×L的输出信息进行损失函数的计算。

在一个例子中，由于3D卷积可以有效的提取时序动作特征，在本例子中使用ResNet18-3D卷积作为网络主干进行时序特征提取；密集预测动作分类头用来判别单个视频帧所属的动作类别，假定包含背景的动作类别数为N＝3，动作类别包括跳、跑及其他三类，其中，其他表示背景，主干网络的输入维度为[16,3,32,112,112]，下采样倍数为16，输出特征维度为[16,512,4,7,7],对主干网络输出特征进行如下处理：

a、对输出特征按H、W维度进行全局平均池化操作，输出维度[16,512,4,1,1]；

b、对步骤a的输出进行全连接操作，输出维度[16,96]，即输出通道数为96；

c、对步骤b的输出进行重排操作，输出维度16×3×32；

d、对步骤c的输出按照第二维度进行softmax交叉熵损失函数计算，即对视频序列的每一帧进行损失函数计算。

动作识别模型对每个视频帧进行动作判别，解决了采样策略、采样长度选取的问题，可以区分视频帧序列的背景与动作前景信息，增强了网络模型的时序特征表述能力。

为了使本申请实施例的时空动作检测方法更加清楚，接下来参考图2对网络模型集成推理过程进行介绍，具体如下：

在步骤201中，向目标跟踪模型输入视频帧，获取当前帧的人物及其id信息。

在步骤202中，更新缓冲矩阵，其中，若目标id在缓冲矩阵

中不存在，则/>

中已经存在，则根据目标id及帧号追加目标信息；若/>

中的目标id在当前帧检测结果不存在，说明目标消失，则删除/>

在步骤203中，判断目标id的长度序列是否大于或等于预设长度序列L，在大于或等于预设长度情况下，执行步骤205，否则，直接将上一次的预测结果作为当前帧动作识别结果。

在步骤204中，将目标id的前L帧结果输入到动作识别模型。

在步骤205中，获取时空动作结果。

而目前的两阶段或单阶段的时空动作检测方法中，当前动作识别绝大部分是以时序片段作为整体进行动作建模，对该片段输出一个动作类别。通常情况下，一个时序片段并不全是动作帧，还存在背景帧，特别是在动作速率比较快的场景，如打乒乓球、羽毛球等，以长序列作为整体进行动作判别存在采样策略问题，采样过短不能充分提取动作特征，采样过长将融入过多背景特征，影响动作判别，此外，由于无法准确定位动作帧，以整个时序片段进行动作建模很难获取鲁棒的时序特征表述，从而导致不能对长视频中的不同人物，不同动作进行准确定位与识别的问题。

而本申请实施例提供的时空动作检测方法，通过目标跟踪和人物动作识别两阶段的检测方法，其中，目标跟踪为提取空间特征信息并进行关联，动作识别为提取时序特征，因此，两个部分分开训练可以增加网络的收敛速度，减少了训练难度，同时也降低了两个网络结构的相互依赖关系，增加了时空动作识别的准确率，另外，采集密集预测的动作识别方法，解决了采样策略、采样长度选取的问题，对每个视频帧进行动作判别，可以区分视频帧序列的背景与动作前景信息，增强了网络模型的时序特征表述能力。实现了对长视频中的不同人物、不同动作进行准确定位与识别，具有高鲁棒性、高准确性的特性。因此，本申请实施例提供的方法可以应用在工业生产、农业生产、日常生活等现实应用场景中，可以替代传统的人工查看统计方案，减少人工干预，提高工作效率，具有广阔的市场应用，能够带来较大的研究和经济价值。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请实施例还涉及一种时空动作检测装置，如图3所示，包括：位置识别模块301和动作识别模块302。

具体地说，位置识别模块301，用于对连续视频帧中的各人物进行定位，得到每一视频帧中的各人物的位置信息，并对每一视频帧中的各人物的位置信息进行缓存；动作识别模块302，用于根据缓存的预设长度序列的视频帧中的人物位置信息，识别每一视频帧的人物动作，得到连续视频帧中每一视频帧的各人物的人物动作。

在一个例子中，位置识别模块301通过预先训练好的目标跟踪网络模型，对连续视频帧中的各人物进行定位，并将目标跟踪网络模型输出的各人物的位置信息存储在缓冲矩阵中，缓冲矩阵的每一个元素

表示j个人物在第i帧中的位置信息，j表示元素所在的行，i表示元素所在的列；其中，目标跟踪网络模型用于对每一视频帧中的各人物的位置信息进行检测；动作识别模块302用于将缓冲矩阵中存储的各人物的位置信息输入预先训练好的动作识别模型，根据动作识别模型的输出结果，得到连续视频帧中每一视频帧的各人物的人物动作；其中，动作识别模型用于根据预设长度序列的视频帧中的人物位置信息，识别每一视频帧的人物动作。

在一个例子中，位置识别模块301对给定的视频帧，使用目标跟踪网络模型推理获取当前帧的人物及其id信息。若目标id在缓冲矩阵

中不存在，则/>

中已经存在，则根据目标id及帧号追加目标信息；若/>

在一个例子中，本申请实施例的时空动作检测装置，还包括一种长度检测模块(图中未示出)，在将目标跟踪网络模型输出的各人物的位置信息输入预先训练好的动作识别模型之前，长度检测模块对缓冲矩阵中每一行的长度进行检测，确定长度大于或等于预设长度序列的第一目标行，即对缓冲矩阵

置为空。

另外，长度检测模块获取缓冲矩阵中长度小于预设长度序列的第二目标行；将第二目标行对应的人物的上一次检测到的人物动作，作为当前视频帧的人物动作，例如，若目标id的序列长度小于L，则将上述目标id上一次的预测结果作为当前帧的动作识别结果。

在一个例子中,动作识别模块302对部分人物序列进行重叠预测，重叠长度为T，T的取值为L/2,例如，对目标id的第1-32帧进行一次动作识别，得到目标id第1-32帧的人物动作，再对目标id的第16-48帧进行一次动作识别，得到目标id第16-48帧的人物动作，因此，对目标id的第16-32帧进行了重叠预测。需要说明的是本申请实施例不对T(T<L)和L的取值作具体限定。

进一步地，动作识别模块302根据目标人物在L个视频帧中的每一视频帧的人物动作，以及目标人物在P个视频帧中的每一视频帧的人物动作，得到目标人物在每一视频帧的人物动作；其中，根据识别到的目标人物在重叠的视频帧的多个人物动作的置信度，确定目标人物在重叠的视频帧的最终人物动作。

本申请实施例提供的时空动作检测装置，通过目标跟踪和人物动作识别两阶段的检测方法，其中，目标跟踪为提取空间特征信息并进行关联，动作识别为提取时序特征，因此，两个部分分开训练可以增加网络的收敛速度，减少了训练难度，同时也降低了两个网络结构的相互依赖关系，增加了时空动作识别的准确率，另外，采集密集预测的动作识别方法，解决了采样策略、采样长度选取的问题，对每个视频帧进行动作判别，可以区分视频帧序列的背景与动作前景信息，增强了网络模型的时序特征表述能力。实现了对长视频中的不同人物、不同动作进行准确定位与识别，具有高鲁棒性、高准确性的特性。

不难发现，本实施方式为上述时空动作检测方法实施例相对应的装置实施例，本实施方式可与上述时空动作检测方法实施例互相配合实施。上述时空动作检测方法实施例提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述时空动作检测方法实施例中。

值得一提的是，本申请上述实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本申请的创新部分，本实施方式中并没有将与解决本申请所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本申请的实施例还提供一种电子设备，如图4所示，包括至少一个处理器401；以及，与所述至少一个处理器401通信连接的存储器402；其中，所述存储器402存储有可被所述至少一个处理器401执行的指令，所述指令被所述至少一个处理器401执行，以使所述至少一个处理器能够执行上述时空动作检测方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请的实施例还提供一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

上述实施例是提供给本领域普通技术人员来实现和使用本申请的，本领域普通技术人员可以在脱离本申请的发明思想的情况下，对上述实施例做出种种修改或变化，因而本申请的保护范围并不被上述实施例所限，而应该符合权利要求书所提到的创新性特征的最大范围。

Claims

1.一种时空动作检测方法，其特征在于，包括：

对连续视频帧中的各人物进行定位，得到每一视频帧中的各人物的位置信息，并对所述每一视频帧中的各人物的位置信息进行缓存；

根据缓存的预设长度序列的视频帧中的人物位置信息，识别每一视频帧的人物动作，得到所述连续视频帧中每一视频帧的各人物的人物动作。

2.根据权利要求1所述的时空动作检测方法，其特征在于，所述对连续视频帧中的各人物进行定位，得到每一视频帧中的各人物的位置信息，包括：

通过预先训练好的目标跟踪网络模型，对连续视频帧中的各人物进行定位；其中，所述目标跟踪网络模型用于对每一视频帧中的各人物的位置信息进行检测；

所述对所述每一视频帧中的各人物的位置信息进行缓存，包括：将所述目标跟踪网络模型输出的各所述人物的位置信息存储在缓冲矩阵中，所述缓冲矩阵的每一个元素S_i ^j表示j个人物在第i帧中的位置信息，所述j表示所述元素所在的行，所述i表示所述元素所在的列；

所述根据缓存的预设长度序列的视频帧中的人物位置信息，识别每一视频帧的人物动作，得到所述连续视频帧中每一视频帧的各人物的人物动作，包括：

将所述缓冲矩阵中存储的各所述人物的位置信息输入预先训练好的动作识别模型，根据所述动作识别模型的输出结果，得到所述连续视频帧中每一视频帧的各人物的人物动作；

其中，所述动作识别模型用于根据预设长度序列的视频帧中的人物位置信息，识别每一视频帧的人物动作。

3.根据权利要求2所述的时空动作检测方法，其特征在于，所述将所述缓冲矩阵中存储的各所述人物的位置信息输入预先训练好的动作识别模型，包括：

对所述缓冲矩阵中每一行的长度进行检测，确定长度大于或等于所述预设长度序列的第一目标行；

将所述第一目标行的前L个行数据输入所述预先训练好的动作识别模型，所述L为所述预设长度序列。

4.根据权利要求3所述的时空动作检测方法，其特征在于，在所述对所述缓冲矩阵中每一行的长度进行检测后，还包括：

获取所述缓冲矩阵中长度小于所述预设长度序列的第二目标行；

将所述第二目标行对应的人物的上一次检测到的人物动作，作为当前视频帧的人物动作。

5.根据权利要求2所述的时空动作检测方法，其特征在于，所述将所述目标跟踪网络模型输出的各所述人物的位置信息存储在缓冲矩阵中，包括：

在所述目标跟踪网络模型输出的当前视频帧中的人物不存在于所述缓冲矩阵的情况下，在所述缓冲矩阵中增加与所述人物对应的行，并将所述人物在当前视频帧中的位置信息更新在所述缓冲矩阵中；

在所述目标跟踪网络模型输出的当前视频帧中的人物存在于所述缓冲矩阵的情况下，将所述人物在当前视频帧中的位置信息更新在所述缓冲矩阵中；

在所述缓冲矩阵中的行所对应的人物未包括在所述目标跟踪网络模型输出的在当前视频帧中检测到的人物的情况下，删除所述未包括的人物所对应的行数据。

6.根据权利要求2至4中任一项所述的时空动作检测方法，其特征在于，所述将所述缓冲矩阵中存储的各所述人物的位置信息输入预先训练好的动作识别模型，包括：

将连续的L个视频帧中的目标人物的位置信息输入所述预先训练好的动作识别模型，得到所述目标人物在所述L个视频帧中的每一视频帧的人物动作；其中，所述L为所述预设长度序列；

将连续的P个视频帧中的目标人物的位置信息输入所述预先训练好的动作识别模型，得到所述目标人物在所述P个视频帧中的每一视频帧的人物动作；其中，所述P为所述预设长度序列，且所述P个视频帧中的前T个视频帧与所述L个视频帧中的后T个视频帧重叠，所述T小于所述预设长度序列；

所述根据所述动作识别模型的输出结果，得到所述连续视频帧中每一视频帧的各人物的人物动作，包括：

根据所述目标人物在所述L个视频帧中的每一视频帧的人物动作，以及所述目标人物在所述P个视频帧中的每一视频帧的人物动作，得到所述目标人物在每一视频帧的人物动作；

其中，根据识别到的所述目标人物在所述重叠的视频帧的多个人物动作的置信度，确定所述目标人物在所述重叠的视频帧的最终人物动作。

7.根据权利要求2至5中任一项所述的时空动作检测方法，其特征在于，在所述通过预先训练好的目标跟踪网络模型，对连续视频帧中的各人物进行定位之前，还包括：

生成初始的动作识别模型，并根据各人物的样本集训练所述初始的动作识别模型，得到所述训练好的动作识别模型；

其中，所述动作识别模型包括用于提取时序特征的主干网络和用于预测每帧的人物动作的密集预测动作分类头；所述主干网络输出的特征维度包括：B×C×L×H×W,其中B表示批处理数，C表示通道数，L表示预设长度序列的视频帧，H表示深度特征的高度，W表示深度特征的宽度；所述生成初始的动作识别模型，包括：

将所述主干网络的输出信息按H、W维度进行全局平均池化操作，将输出维度更新为B×C×L×1×1：

将输出维度更新后的输出信息进行全连接和重排操作，得到输出维度为B×N×L的输出信息，所述N表示动作类别数；

根据所述动作类别数对所述输出维度为B×N×L的输出信息进行损失函数的计算。

8.一种时空动作检测装置，其特征在于，包括：

位置识别模块，用于对连续视频帧中的各人物进行定位，得到每一视频帧中的各人物的位置信息，并对所述每一视频帧中的各人物的位置信息进行缓存；

动作识别模块，用于根据缓存的预设长度序列的视频帧中的人物位置信息，识别每一视频帧的人物动作，得到所述连续视频帧中每一视频帧的各人物的人物动作。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的时空动作检测方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的时空动作检测方法。