CN113011395B

CN113011395B - 一种单阶段动态位姿识别方法、装置和终端设备

Info

Publication number: CN113011395B
Application number: CN202110454967.7A
Authority: CN
Inventors: 邵池; 汤志超; 程骏; 林灿然; 郭渺辰; 庞建新
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2023-09-01
Anticipated expiration: 2041-04-26
Also published as: CN113011395A; WO2022227512A1

Abstract

本发明实施例公开了一种单阶段动态位姿识别方法、装置和终端设备，本申请的技术方案，一方面，在确定视频段中每一帧中的位姿时，是基于M个视频采集装置在同一时间段采集的包括同一组动态位姿的M个视频段对应的M个视频帧集合，利用各个视频帧集合内的视频帧对应的特征子向量相互增强融合实现动态位姿识别，有效增强动态位姿识别的准确度；另一方面，针对M个视频帧集合预先训练M个特征提取模型，利用M个特征提取模型分别提取对应视频帧集合中各个视频帧的特征子向量，进而保证对各个视频帧集合中各个视频帧的特征子向量进行有效提取；再一方面，通过引入注意力等级参数，充分考虑了特征向量可能受到周围特征子向量的影响。

Description

一种单阶段动态位姿识别方法、装置和终端设备

技术领域

本发明涉及人工智能领域，尤其涉及一种单阶段动态位姿识别方法、装置和终端设备。

背景技术

目前，大多数动态位姿识别方法都是基于识别孤立位姿的，识别模型输入视频为手动分割的视频片段，每个视频片段包含一个单独的位姿(手势位姿或身体位姿)。然而，在真实世界场景中，位姿一般是连续执行的，这种基于孤立位姿的方法并不能直接应用。

发明内容

鉴于上述问题，本发明提出一种单阶段动态位姿识别方法、装置和终端设备。

本申请提出一种单阶段动态位姿识别方法，所述方法包括：

获取M个视频帧集合，所述M个视频帧集合为M个视频采集装置在同一时间段采集的包括同一组动态位姿的M个视频段对应的M个视频帧集合，M≥2；

利用预先确定的M个特征提取模型分别提取对应视频帧集合中各个视频帧的特征子向量；

根据预设的注意力等级参数和第m个视频帧集合的第t个特征子向量确定对应的第t个特征向量；

根据所述M个视频帧集合中的各个特征向量识别视频段中每一帧中的位姿。

本申请所述的单阶段动态位姿识别方法，所述第t个特征向量利用以下公式确定：

表示所述第m个视频帧集合的第t个特征向量，0<t-p<t，t<t+q<T，|p-q|≤1，T为所述视频段中视频帧的总数，A表示所述注意力等级参数，/>表示第m个视频帧集合中第t帧视频帧对应的注意力等级a对应的特征子向量，a≤A，V_t ^m表示第m个视频帧集合中第t个特征子向量。

本申请所述的单阶段动态位姿识别方法，所述根据所述M个视频帧集合中的各个特征向量识别视频段中每一帧中的位姿，包括：

利用M个第t个特征向量确定第t个特征增强向量；

对所述第t个特征增强向量进行全局平均池化处理以确定第t个特征池化向量；

对所述第t个特征池化向量进行RELU(Rectified Linear Unit，线性整流函数)激活处理以确定第t个特征激活向量；

利用T个特征激活向量组成的特征融合向量识别所述视频段中每一帧中的位姿。

本申请提出所述的单阶段动态位姿识别方法，利用以下公式确定第t个特征池化向量：

Z_t表示所述第t个特征池化向量，表示所述第t个特征增强向量，/>表示第m个视频帧集合中第t帧视频帧的注意力等级a对应的特征子向量。

本申请所述的单阶段动态位姿识别方法，所述利用T个特征激活向量组成的特征融合向量识别所述视频段中每一帧中的位姿，包括：

对所述利用T个特征激活向量组成的特征融合向量依次进行空洞卷积处理、RELU激活处理、dropout处理和softmax处理以确定所述视频段中每一帧中的位姿所属的预测类别和对应的预测概率。

本申请所述的单阶段动态位姿识别方法，还包括：

根据以下公式计算所述视频段的分类损失：

L_s表示所述视频段的分类损失，C表示预测类别总数，Δ_t,c表示第t帧视频帧中的位姿属于预测类别c时所对应的分类损失，y_t,c表示第t帧视频帧中的位姿属于预测类别c时所对应的预测概率，y_t-1,c表示第t-1帧视频帧中的位姿属于预测类别c时所对应的预测概率，ε表示预设的概率阈值。

本申请所述的单阶段动态位姿识别方法，所述位姿包括手势位姿和/或身体位姿。

本申请提出一种单阶段动态位姿识别装置，所述装置包括：

获取模块，用于获取M个视频帧集合，所述M个视频帧集合为M个视频采集装置在同一时间段采集的包括同一组动态位姿的M个视频段对应的M个视频帧集合，M≥2；

确定模块，用于利用预先确定的M个特征提取模型分别提取对应视频帧集合中各个视频帧的特征子向量；还用于根据预设的注意力等级参数和第m个视频帧集合的第t个特征子向量确定对应的第t个特征向量；

识别模块，用于根据所述M个视频帧集合中的各个特征向量识别视频段中每一帧中的位姿。

本申请提出一种终端设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行本申请所述的单阶段动态位姿识别方法。

本申请提出一种可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行本申请所述的单阶段动态位姿识别方法。

本申请的技术方案，一方面，在确定视频段中每一帧中的位姿时，是基于M个视频采集装置在同一时间段采集的包括同一组动态位姿的M个视频段对应的M个视频帧集合，利用各个视频帧集合内的视频帧对应的特征子向量实现动态位姿识别，有效增强动态位姿识别的准确度；另一方面，针对M个视频帧集合预先训练M个特征提取模型，利用M个特征提取模型分别提取对应视频帧集合中各个视频帧的特征子向量，进而保证对各个视频帧集合中各个视频帧的特征子向量进行有效提取；再一方面，通过引入注意力等级参数，充分考虑了特征向量可能受到周围特征子向量的影响。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了本发明实施例提出的一种单阶段动态位姿识别方法的流程示意图；

图2示出了本发明实施例提出的一种注意力等级参数与特征子向量的关系示意图；

图3示出了本发明实施例提出的另一种注意力等级参数与特征子向量的关系示意图；

图4示出了本发明实施例提出的一种识别视频段中每一帧中位姿的流程示意图；

图5示出了本发明实施例提出的另一种单阶段动态位姿识别方法的流程示意图；

图6示出了本发明实施例提出的一种单阶段动态位姿识别装置的结构示意图。

主要元件符号说明：

10-单阶段动态位姿识别装置；11-获取模块；12-确定模块；13-识别模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。

位姿识别包括手势位姿识别和/或身体位姿识别，位姿识别是学术界以及工业界广泛研究的方向之一，目前已有许多实际应用，包括人机交互、机器人技术、手语识别、游戏和虚拟现实控制等。位姿识别又可以分为静态位姿识别和动态位姿识别，本发明提出的方法主要用于识别视频中的动态位姿。

可以理解，对于动态位姿识别，一般包括两种识别方法，例如，两阶段识别方法和单阶段识别方法。两阶段识别方法使用两种模型进行识别：一种模型用于执行位姿检测(也称为位姿识别阶段，用于识别是否存在位姿)，另一种模型用于对识别出的位姿进行手势分类。例如，首先通过一个轻量级的3D-CNN模型检测位姿，然后在检测到位姿时激活一个重量级的3D-CNN分类模型进行位姿分类。对于单阶段识别方法，视频中不包含动作的帧被标记为非位姿类。与两阶段识别方法相比，单阶段识别方法仅使用位姿分类一个模型，除了比两阶段识别方法简单之外，单阶段识别方法还避免了错误在各阶段之间传播的潜在问题。例如，在两阶段识别方法中，如果检测位姿的模型在检测位姿阶段时出错，则该错误将传播到后续分类阶段。本发明中采用的单阶段动态位姿识别方法，可以通过单个模型检测和分类单个视频中的多个位姿。这种方法无需位姿预处理阶段即可检测视频中的动态位姿。

实施例1

本发明的一个实施例，如图1所示，单阶段动态位姿识别方法包括以下步骤：

S100：获取M个视频帧集合，所述M个视频帧集合为M个视频采集装置在同一时间段采集的包括同一组动态位姿的M个视频段对应的M个视频帧集合，M≥2。

M个视频采集装置一般安装在同一区域，并且需要保证M个视频采集装置可以同时采集同一组动态位姿。M个视频采集装置可以是不同类型，例如，可以同时使用RGB图像采集装置和RGB-D图像(深度图像)采集装置。

可以理解，M个视频采集装置在同一时间段采集的包括同一组动态位姿的M个视频段对应的M个视频帧集合可以预先存储在数据库或者存储设备中，在对视频段中的位姿进行识别时，可以从数据库或者存储设备中获取M个视频帧集合；或者，M个视频采集装置在同一时间段采集的包括同一组动态位姿的M个视频段对应的M个视频帧集合可以实时上传至用于识别动态位姿的终端设备，以使终端设备可以实时识别动态位姿；或者，M个视频采集装置中可以至少有一个视频采集装置具有识别动态位姿的功能，具有识别动态位姿功能的视频采集装置可以获取其他视频采集装置对应的视频帧集合，以利用较少的硬件设备实现识别M个视频帧集合对应的动态位姿。

进一步的，在同一时间段采集的包括同一组动态位姿的视频段至少为2个，可选的，M≥2。可以理解，在M＝2时，动态位姿识别过程的复杂度较低，计算量较少，识别速度较快。随着M的增加，虽然动态位姿识别过程的复杂度增加，计算量增加，识别速度减缓，但是，动态位姿识别的精度将提高。

S200：利用预先确定的M个特征提取模型分别提取对应视频帧集合中各个视频帧的特征子向量。

每一个视频帧集合中包括多个视频帧，多个视频帧按照时间顺序依次排列形成一个视频帧序列，即先采样的视频帧靠前，后采样的视频帧靠后。考虑到各个视频帧集合可能是利用不同类型的视频采集装置采集获得的，例如，可能同时使用RGB图像采集装置和RGB-D图像(深度图像)采集装置。因此，需要预先确定的M个特征提取模型，即不仅需要针对RGB图像预先训练一个特征提取模型(例如基于ResNet的RGB特征提取)，还需要针对深度图像预先训练一个特征提取模型(例如基于ResNet的深度特征提取)。进而保证对各个视频帧集合中各个视频帧的特征子向量进行有效提取。

S300：根据预设的注意力等级参数和第m个视频帧集合的第t个特征子向量确定对应的第t个特征向量。

每一个视频帧集合中包括多个视频帧，多个视频帧按照时间顺序依次排列形成一个视频帧序列，即先采样的视频帧靠前，后采样的视频帧靠后。考虑到每一个视频帧集合中的第t个特征子向量可能受到周围特征子向量的影响，本实施例在确定第m个视频帧集合的第t个特征向量时，引入注意力等级参数，注意力等级参数用于体现第m个视频帧集合的第t个特征向量受到周围哪些特征子向量的影响。

示范性的，在A＝3时，如图2所示，第m个视频帧集合的第t个特征向量由第m个视频帧集合的第t-1帧视频帧对应的第t-1个特征子向量第t帧视频帧对应的第t个特征子向量V_t ^m和第t+1帧视频帧对应的第t+1个特征子向量/>组成，即若/>表示所述第m个视频帧集合的第t个特征向量，则/>

示范性的，在A＝8时，如图3所示，第m个视频帧集合的第t个特征向量由第m个视频帧集合的第t-3帧视频帧对应的第t-3个特征子向量第t-2帧视频帧对应的第t-2个特征子向量/>第t-1帧视频帧对应的第t-1个特征子向量/>第t帧视频帧对应的第t个特征子向量V_t ^m、第t+1帧视频帧对应的第t+1个特征子向量/>第t+2帧视频帧对应的第t+2个特征子向量/>第t+3帧视频帧对应的第t+3个特征子向量/>和第t+4帧视频帧对应的第t+4个特征子向量/>组成，即或者，第m个视频帧集合的第t个特征向量由第m个视频帧集合的第t-4帧视频帧对应的第t-4个特征子向量第t-3帧视频帧对应的第t-3个特征子向量/>第t-2帧视频帧对应的第t-2个特征子向量/>第t-1帧视频帧对应的第t-1个特征子向量/>第t帧视频帧对应的第t个特征子向量V_t ^m、第t+1帧视频帧对应的第t+1个特征子向量/>第t+2帧视频帧对应的第t+2个特征子向量/>和第t+3帧视频帧对应的第t+3个特征子向量/>组成，即

进一步的，第t个特征向量可以利用以下公式确定：

表示所述第m个视频帧集合的第t个特征向量，0<t-p<t，t<t+q<T，|p-q|≤1，T为所述视频段中视频帧的总数(即第m个视频帧集合中视频帧的总数)，A表示所述注意力等级参数，/>表示第m个视频帧集合中第t帧视频帧对应的注意力等级a对应的特征子向量，a≤A，V_t ^m表示第m个视频帧集合中第t个特征子向量。

S400：根据所述M个视频帧集合中的各个特征向量识别视频段中每一帧中的位姿。

每一个视频帧集合中的包括多个特征向量，分别对M个视频帧集合中的各个特征向量进行特征增强处理、全局平均池化处理以及激活处理，以获取特征融合向量，然后利用特征融合向量识别视频段中每一帧中的位姿。

本实施例的技术方案，一方面，在确定视频段中每一帧中的位姿时，是基于M个视频采集装置在同一时间段采集的包括同一组动态位姿的M个视频段对应的M个视频帧集合，利用各个视频帧集合内的视频帧对应的特征子向量相互增强融合实现动态位姿识别，有效增强动态位姿识别的准确度；另一方面，针对M个视频帧集合预先训练M个特征提取模型，利用M个特征提取模型分别提取对应视频帧集合中各个视频帧的特征子向量，进而保证对各个视频帧集合中各个视频帧的特征子向量进行有效提取；再一方面，本实施例的技术方案引入注意力等级参数，充分考虑了特征向量可能受到周围特征子向量的影响。

进一步的，本实施例的技术方案与两阶段识别方法相比，单阶段识别方法不仅比两阶段识别方法简单，而且单阶段识别方法还避免了错误在各阶段之间传播的潜在问题。例如，在两阶段识别方法中，如果检测位姿的模型在检测位姿阶段时出错，则该错误将传播到后续分类阶段。

进一步的，基于本实施例的技术方案对视频段中的每一帧视频帧中位姿的识别，可以对视频段进行切分，例如，视频帧相邻且位姿不同的两个视频帧可以作为一个切分点，进而可以将连续相同的位姿作为一段。

实施例2

本申请的一个实施例，如图4所示，在获得M个视频帧集合中的各个特征向量后，视频段中每一帧中的位姿识别包括以下步骤：

S410：利用M个第t个特征向量确定第t个特征增强向量。

第m个视频帧集合的第t个特征向量可以表示为利用M个第t个特征向量确定第t个特征增强向量可以为/>

示范性的，在M＝2时，第一个视频帧集合中包括多个特征向量2，3，……，第二个视频帧集合中包括多个特征向量/>进一步的，在t＝1时，第一特征增强向量可以表示为/>

S420：对所述第t个特征增强向量进行全局平均池化处理以确定第t个特征池化向量。

示范性的，可以利用以下公式确定第t个特征池化向量：

S430：对所述第t个特征池化向量进行RELU激活处理以确定第t个特征激活向量。

示范性的，对所述第t个特征池化向量进行RELU激活处理以确定第t个特征激活向量β_t，可以表示为β_t＝RELU(Z_t)＝max(0，Z_t)。

可以理解，通过RELU激活可以引入非线性因素，使得本申请的技术方案可以解决更加复杂的位姿分类识别问题，RELU激活其实就是个取最大值的函数。ReLU激活函数其实是分段线性函数，把所有的负值都变为0，而正值不变，这种操作可以被理解成单侧抑制。(也就是说：在输入是负值的情况下，它会输出0，那么神经元就不会被激活。这意味着同一时间只有部分神经元会被激活，从而使得网络很稀疏，进而对计算来说是非常有效率的。)正因为有了单侧抑制，才使得神经网络中的神经元也具有了稀疏激活性。示范性的，在深度神经网络模型(如CNN)中，当模型增加N层之后，理论上ReLU神经元的激活率将降低2的N次方倍。ReLU激活函数没有复杂的指数运算，因此，计算简单、分类识别效率高；另外，ReLU激活函数与Sigmoid/tanh激活函数相比，收敛速度更快。

S440：利用T个特征激活向量组成的特征融合向量识别所述视频段中每一帧中的位姿。

特征激活向量β_t，t＝1，2，3，……，T，利用T个特征激活向量可以组成的特征融合向量β＝[β₁,β₂,…,β_T]。

进一步的，对特征融合向量β＝[β₁,β₂,…,β_T]依次进行空洞卷积处理、RELU激活处理、dropout处理和softmax处理以确定所述视频段中每一帧中的位姿所属的预测类别和对应的预测概率。

示范性的，空洞卷积处理、RELU激活处理、dropout处理和softmax处理可以利用如下函数关系f_MEM表示：

y_1,c，y_2,c，……，y_T,c＝f_MEM([β₁,β₂,…,β_T])，y_t,c表示第t帧视频帧中的位姿属于预测类别c时所对应的预测概率，t＝1，2，3，……，T。

其中，空洞卷积处理是在标准卷积的基础上注入空洞，以此来增加感受野，空洞卷积处理可以在增加感受野的同时保持特征融合向量的尺寸。dropout处理包括利用一维卷积层、dropout层和一维卷积层对特征融合向量进行dropout处理，dropout在神经网络的信息前向传播的时候，让某个神经元的激活值以一定的概率p停止工作，这样可以使神经网络模型泛化性更强，避免对某些局部的特征产生过度依赖，进而可以比较有效的缓解过拟合的发生，在一定程度上达到正则化的效果。softmax处理是利用softmax函数将输入映射为0-1之间的实数，并且归一化保证和为1，进而保证多分类的概率之和也刚好为1。

实施例3

本申请的一个实施例，参见图5，示出了另一种单阶段动态位姿识别方法，在步骤S400之后还包括：

S500：根据所述视频段中每一帧中的位姿所属的预测类别和对应的预测概率计算所述视频段对应的分类损失。

示范性的，可以根据以下公式计算所述视频段对应的分类损失：

通过所述视频段对应的分类损失一方面可以确定当前位姿识别的准确度，即所述视频段对应的分类损失越小，代表当前位姿识别的准确度越高；另一方面可以用于评价单阶段动态位姿识别模型，即在训练单阶段动态位姿识别模型时，可以根据分类损失函数的收敛情况确定单阶段动态位姿识别模型是否达标，例如，在分类损失函数收敛且分类损失小于预设的损失阈值时，单阶段动态位姿识别模型训练完成，可以用于识别视频段中的动态位姿。

实施例4

本申请的一个实施例，参见图6，示出了一种单阶段动态位姿识别装置10包括：获取模块11、确定模块12和识别模块13。

获取模块11，用于获取M个视频帧集合，所述M个视频帧集合为M个视频采集装置在同一时间段采集的包括同一组动态位姿的M个视频段对应的M个视频帧集合，M≥2；确定模块12，用于利用预先确定的M个特征提取模型分别提取对应视频帧集合中各个视频帧的特征子向量；还用于根据预设的注意力等级参数和第m个视频帧集合的第t个特征子向量确定对应的第t个特征向量；识别模块13，用于根据所述M个视频帧集合中的各个特征向量识别视频段中每一帧中的位姿。

进一步的，所述第t个特征向量利用以下公式确定：

进一步的，所述根据所述M个视频帧集合中的各个特征向量识别视频段中每一帧中的位姿，包括：

利用M个第t个特征向量确定第t个特征增强向量；对所述第t个特征增强向量进行全局平均池化处理以确定第t个特征池化向量；对所述第t个特征池化向量进行RELU激活处理以确定第t个特征激活向量；利用T个特征激活向量组成的特征融合向量识别所述视频段中每一帧中的位姿。

进一步的，利用以下公式确定第t个特征池化向量：

进一步的，所述利用T个特征激活向量组成的特征融合向量识别所述视频段中每一帧中的位姿，包括：

进一步的，识别模块13，还用于根据所述视频段中每一帧中的位姿所属的预测类别和对应的预测概率计算所述视频段对应的分类损失。

进一步的，根据以下公式计算所述视频段的分类损失：

进一步的，所述位姿包括手势位姿和/或身体位姿。

本实施例公开的单阶段动态位姿识别装置10通过获取模块11、确定模块12和识别模块13的配合使用，用于执行上述实施例所述的单阶段动态位姿识别方法，上述实施例所涉及的实施方案以及有益效果在本实施例中同样适用，在此不再赘述。

可以理解，本申请提出一种终端设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行本申请所述的单阶段动态位姿识别方法。

可以理解，本申请提出一种可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行本申请所述的单阶段动态位姿识别方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种单阶段动态位姿识别方法，其特征在于，所述方法包括：

根据所述M个视频帧集合中的各个特征向量识别视频段中每一帧中的位姿；

所述第t个特征向量利用以下公式确定：

表示所述第m个视频帧集合的第t个特征向量，0<t-p<t，t<t+q<T，|p-q|≤1，T为所述视频段中视频帧的总数，A表示所述注意力等级参数，/>表示第m个视频帧集合中第t帧视频帧对应的注意力等级/>对应的特征子向量，/>≤A，/>表示第m个视频帧集合中第t个特征子向量。

2.根据权利要求1所述的单阶段动态位姿识别方法，其特征在于，所述根据所述M个视频帧集合中的各个特征向量识别视频段中每一帧中的位姿，包括：

利用M个第t个特征向量确定第t个特征增强向量；

对所述第t个特征池化向量进行RELU激活处理以确定第t个特征激活向量；

3.根据权利要求2所述的单阶段动态位姿识别方法，其特征在于，利用以下公式确定第t个特征池化向量：

Z_t表示所述第t个特征池化向量，，/>表示所述第t个特征增强向量，η_t(/>,m)=/>表示第m个视频帧集合中第t帧视频帧的注意力等级/>对应的特征子向量。

4.根据权利要求2所述的单阶段动态位姿识别方法，其特征在于，所述利用T个特征激活向量组成的特征融合向量识别所述视频段中每一帧中的位姿，包括：

5.根据权利要求4所述的单阶段动态位姿识别方法，其特征在于，还包括：

根据以下公式计算所述视频段的分类损失：

L_s表示所述视频段的分类损失，C表示预测类别总数，∆_t,c表示第t帧视频帧中的位姿属于预测类别c时所对应的分类损失，y_t,c表示第t帧视频帧中的位姿属于预测类别c时所对应的预测概率，y_t-1,c表示第t-1帧视频帧中的位姿属于预测类别c时所对应的预测概率，ε表示预设的概率阈值。

6.根据权利要求1至5任一项所述的单阶段动态位姿识别方法，其特征在于，所述位姿包括手势位姿和/或身体位姿。

7.一种单阶段动态位姿识别装置，其特征在于，所述装置包括：

识别模块，用于根据所述M个视频帧集合中的各个特征向量识别视频段中每一帧中的位姿；

所述确定模块，还用于利用以下公式确定所述第t个特征向量：

8.一种终端设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行权利要求1至6任一项所述的单阶段动态位姿识别方法。

9.一种可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序在处理器上运行时执行权利要求1至6任一项所述的单阶段动态位姿识别方法。