CN112396001B

CN112396001B - 基于人体姿态估计和tpa注意力机制的跳绳个数统计方法

Info

Publication number: CN112396001B
Application number: CN202011309507.7A
Authority: CN
Inventors: 唐义平; 汪斌; 颜宋宋; 丁美双; 彭思瑶; 李帷韬
Original assignee: Anhui Yishi Technology Co ltd
Current assignee: Anhui Yishi Technology Co ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2022-07-12
Anticipated expiration: 2040-11-20
Also published as: CN112396001A

Abstract

本发明公开了一种基于人体姿态估计和TPA注意力机制的跳绳个数统计方法，其步骤包括：1、使用Openpose模型提取跳绳动作视频中的人体关键点；2、得到关键点与基准线距离关于时间的波形图；3、构建并训练基于TPA注意力机制的SRNN模型；4、综合考虑判断条件1和判断条件2判断是否有跳绳动作。本发明能通过设备实时检测出被检测对象的跳绳个数，从而有效提高检测精度和效率。

Description

基于人体姿态估计和TPA注意力机制的跳绳个数统计方法

技术领域

本发明属于人工智能应用领域，目标识别技术、人体姿态估计技术、深度学习技术，具体的说是一种基于人体姿态估计和TPA注意力机制的跳绳个数统计方法。

背景技术

目前对于体育动作的评判仍然停留在人工阶段，而日益增长的评判需求驱使人工智能的发展。

递归神经网络(RNN)已被广泛应用于许多自然语言处理任务中，包括机器翻译、问题回答、图像说明以及文档分类。RNN具有获得输入序列的顺序信息的能力。最流行的两个递归单位是长短期记忆(LSTM)和门控递归单位(GRU)，这两个单位都可以将先前的记忆储存在隐藏状态，并使用门控机制来确定应该将多少先前的记忆与当前的输入结合起来。然而，由于递归结构，RNN不能并行计算。因此，训练RNN需要花费大量的时间，这限制了学术研究和工业应用。为了解决这个问题，几位学者试图在自然语言处理领域使用卷积神经网络而不是RNN。然而，CNN可能无法获得序列的顺序信息，这在NLP任务中是非常重要的。

一些学者试图通过改进循环单元来提高神经网络的速度，并取得了较好的效果。Bradbury等人在2017年提出的准递归神经网络(QRNN)通过将CNN与RNN相结合，速度提高了16倍。雷等人提出了简单循环单元(SRU)，其速度是LSTM的5-10倍。同样，Balduzzi和Ghifary在2016年提出的强类型递归神经网络(T-RNN)和最小门限单元(MGU)也是可以改变递归单元的方法。尽管RNN在这些研究中取得了更快的速度，递归单元有所改善，但整个序列之间的递归结构保持不变。由于还需要等待上一步的输出，所以RNN的瓶颈仍然存在。

在日常生活中，通过传感器在离散时间步长上产生的不断变化的变量，并将它们组织成的时间序列数据无处不在。例如，家庭用电量、道路占有率、货币汇率、太阳能发电量，甚至音符都可以看作是时间序列数据。在大多数情况下，收集的数据通常是多变量时间序列(MTS)数据，不同序列之间可能存在复杂的动态相互依赖关系，这些依赖关系很重要，但很难捕获和分析。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于人体姿态估计和TPA注意力机制的跳绳个数统计方法，以期能实时检测出被检测对象的跳绳个数，从而能提高检测精度和效率。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于人体姿态估计和TPA注意力机制的跳绳个数统计方法的特点是按如下步骤进行：

步骤1：采集在基准线上身体正面的跳绳动作视频；

步骤2：使用YOLO-V5模型对所述跳绳动作视频进行检测，并将所检测出的人体区域进行放大处理，得出放大后的人体区域视频；

步骤3：使用Openpose模型对所述放大后的人体区域视频进行检测，得到人体关键点向量集合；

步骤4：提取所述人体关键点向量集合中所有腰部的关键点向量M＝[X_1,1,Y_1,1,D_1,1,X_1,2,Y_1,2,D_1,2,…,X_1,u,Y_1,u,D_1,u,…,X_1,s,Y_1,s,D_1,s]、左脚踝部位的关键点向量L＝[X_2,1,Y_2,1,D_2,1,X_2,2,Y_2,2,D_2,2,…,X_2,u,Y_2,u,D_2,u,…,X_2,s,Y_2,s,D_2,s]、右脚踝部位的关键点向量R＝[X_3,1,Y_3,1,D_3,1,X_3,2,Y_3,2,D_3,2,…,X_3,u,Y_3,u,D_3,u,…,X_3,s,Y_3,s,D_3,s]；其中，X_1,u,Y_1,u,D_1,u表示腰部的关键点向量在第u个图像的横坐标、纵坐标和置信度；X_2,u,Y_2,u,D_2,u表示左脚踝部位的关键点向量在第u个图像的横坐标、纵坐标和置信度；X_3,u,Y_3,u,D_3,u表示右脚踝部位的关键点向量在第u个图像的横坐标、纵坐标和置信度；u∈[1,s]；s表示图像的总帧数；

步骤5：以时间t作为横坐标，分别以腰部、左、右脚踝部位的关键点向量的横、纵坐标与基准线的距离d作为纵坐标，从而构建关于d-t的腰部、左、右脚踝部位的散点图，并拟合成腰部、左、右脚踝部位的波形图，依次记为d_M-t、d_L-t、d_R-t；

步骤6：计数判断条件1：

当ε₁<M|峰-谷|<ε₂且ε₃＜L|峰-谷|<ε₄且ε₅<R|峰-谷|<ε₆时，则表示有跳绳动作；其中，ε₁、ε₂、ε₃、ε₄、ε₅、ε₆分别大于0的不同界限值；M|峰-谷|表示腰部的波形图d_M-t在单个周期时间内波峰减去波谷的数值，L|峰-谷|表示左脚踝部位的波形图d_L-t在单个周期时间内波峰减去波谷的数值；R|峰-谷|是右脚踝部位的波形图d_R-t在单个周期时间内波峰减去波谷的数值；

步骤7：计数判断条件2是采用基于TPA注意力机制的SRNN模型的输出结果进行计数辅助判断；

步骤7.1：构建数据集；

分别选取腰部、左、右脚踝部位的波形图d_M-t、d_L-t、d_R-t的单个周期内T个纵坐标所对应的距离数据依次作为腰部、左、右脚踝部位的输入序列x_r＝[x_r,1,x_r,2,...,x_r,T]；r＝1,2,3分别表示腰部、左、右脚踝部位；x_r,T分别腰部、左或右脚踝部位的第T个距离数据；

步骤7.2：构建SRNN模型；

步骤7.2.1：将输入序列x_r分成p个等长的子序列，每个子序列N的长度

则划分后的输入序列记为x′_r＝[N₁,N₂,...,N_p]，N_p表示第p个子序列；

步骤7.2.2：按照步骤7.2.1不断地将划分后的输入序列继续分成n个等长的子序列，直到最后第q次划分时的输入序列中每个子序列的元素个数小于n为止；并将第q次划分时的输入序列x′_r,q中子序列的总个数记为S₀＝n^q；

步骤7.3：构建TPA注意力机制；

步骤7.3.1：将所述第q次划分时的输入序列x′_r,q输入SRNN模型中，并将模型每一层中所生成的n^q个n×1维的隐藏状态向量拼接为隐藏状态矩阵，选取所述隐藏状态矩阵中末尾的w个隐藏状态组成n×w维的状态矩阵H＝[h₁,h₂,…,h_w]，其中，w为窗口大小；h_w表示第w个隐藏状态；

步骤7.3.2：使用k个1×w维的CNN滤波器对状态矩阵H的行向量进行卷积操作，得到卷积操作后的n×k维状态矩阵H^C＝{H_i,j ^C|i＝1,2,…,n；j＝1,2,…,k}；其中，H_i,j ^C表示第i行向量和第j个滤波器的卷积值；

步骤7.3.3：利用式(1)构造评分函数f(H_i ^C,h_t)：

f(H_i ^C,h_t)＝(H_i ^C)^TW_ah_t (1)

式(1)中，H_i ^C是状态矩阵H^C的第i行数据；h_t表示当前时刻tSRNN模型输出的隐藏状态向量，W_a表示k×m维的权重系数矩阵；

步骤7.3.4：利用式(2)构造关注权重α_i：

α_i＝sigmoid(f(H_i ^C,h_t)) (2)

式(2)中，sigmoid(·)表示sigmoid激活函数；

步骤7.3.5：利用式(3)得到k×1维当前时刻t的上下文向量v_t：

步骤7.3.6：利用式(4)得到基于TPA注意力机制的SRNN模型所输出的预测结果y，所述预测结果y为是否跳绳动作；

y＝W_h′h′_t (4)

式(4)中，W_h′表示n×m维的权重系数矩阵，h′_t表示更新后当前时刻t的隐藏状态向量，并有：

h′_t＝W_hh_t+W_vv_t (5)

式(5)中，W_h表示m×m维的权重系数矩阵，W_v表示m×k维的权重系数矩阵；

步骤8：当计数判断条件1或计数判断条件2判断出跳绳动作，则跳绳计数加一。

与现有技术相比，本发明的有益效果在于：

1、跳绳动作识别对实时性的要求很高，本发明引用的Openpose模型的处理速度非常快，既可保证人体关键点检测的准确性，也可保证模型达到实时检测的要求。

2、跳绳动作识别需要通过很多次的训练从而挑选出一个表现效果最好的模型，本发明引入了切片递归神经网络(SRNN)，它通过将序列分成多个子序列来并行化，大大节省了模型训练的时间，为实现该跳绳计数提供了一种高效且实用的训练方法。

3、为了提高跳绳动作识别的准确率，本发明引入了一种TPA时间模式注意力机制，通过TPA时间模式注意力机制大大提升了模型对高级信息的提取能力，该注意力机制很好的契合了以多个关键点为输入序列的数据类型，提高了跳绳动作识别的准确率。

附图说明

图1为本发明跳绳个数统计方法流程图；

图2为本发明关键点与基准线距离关于时间的波形图；

图3为本发明构建的基于TPA注意力机制的SRNN模型图。

具体实施方式

本实施例中，参照图1，一种基于人体姿态估计和TPA注意力机制的跳绳个数统计方法是按如下步骤进行：

步骤1：采集在基准线上身体正面的跳绳动作视频；

步骤2：使用YOLO-V5模型对跳绳动作视频进行检测，并将所检测出的人体区域进行放大处理，得出放大后的人体区域视频；

本实施例中，放大倍数选取1.1倍。

步骤3：使用Openpose模型对放大后的人体区域视频进行检测，得到人体关键点向量集合；

本实施例中，Openpose模型共提取25个人体关键点坐标，关键点坐标以.json的文件格式保存。

本实施例中，每个周期内取20个坐标点，并拟合成曲线。关键点与基准线距离关于时间的波形如图2所示，其中，横坐标为时间，单位为秒，纵坐标为缩放后的幅值。

步骤6：计数判断条件1：

步骤7.1：构建数据集；

步骤7.2：构建SRNN模型；

第0层的最小子序列长度为：

由于第j层的每个父序列(j＞0)都被分成n个部分，因此第j层的子序列数为：

S_j＝n^q-j

则第j层的子序列长度为：

L_j＝n

步骤7.3：构建TPA注意力机制；

步骤7.3.1：将第q次划分时的输入序列x′_r,q输入SRNN模型中，并将模型每一层中所生成的n^q个n×1维的隐藏状态向量拼接为隐藏状态矩阵，选取隐藏状态矩阵中末尾的w个隐藏状态组成n×w维的状态矩阵H＝[h₁,h₂,…,h_w]，其中，w为窗口大小；h_w表示第w个隐藏状态；

步骤7.3.3：利用式(1)构造评分函数f(H_i ^C,h_t)：

f(H_i ^C,h_t)＝(H_i ^C)^TW_ah_t (1)

式(1)中，H_i ^C是状态矩阵H^C的第i行数据；h_t表示当前时刻t SRNN模型输出的隐藏状态向量，W_a表示k×m维的权重系数矩阵；

步骤7.3.4：利用式(2)构造关注权重α_i：

α_i＝sigmoid(f(H_i ^C,h_t)) (2)

式(2)中，sigmoid(·)表示sigmoid激活函数；

步骤7.3.5：利用式(3)得到k×1维当前时刻t的上下文向量v_t：

y＝W_h′h′_t (4)

h′_t＝W_hh_t+W_vv_t (5)

本实施例中，步骤7所构建的基于TPA注意力机制的SRNN模型如图3所示。输入序列通过SRNN模型输出隐藏状态矩阵H，使用k个1×w维的CNN滤波器对状态矩阵H的行向量进行卷积操作，得到卷积操作后的n×k维状态矩阵H^C＝{H_i,j ^C|i＝1,2,…,n；j＝1,2,…,k}。其中，行向量代表单个变量在所有时间步下状态，即同一变量的所有时间步构成的向量，列向量代表单个时间步状态，即同一时间步下的所有变量构成的向量。

Claims

1.一种基于人体姿态估计和TPA注意力机制的跳绳个数统计方法，其特征是按如下步骤进行：

步骤1：采集在基准线上身体正面的跳绳动作视频；

步骤6：计数判断条件1：

当ε₁<M|峰-谷|<ε₂且ε₃＜L|峰-谷|<ε₄且ε₅<R|峰-谷|<ε₆时，则表示有跳绳动作；其中，ε₁、ε₂、ε₃、ε₄、ε₅、ε₆分别是大于0的不同界限值；M|峰-谷|表示腰部的波形图d_M-t在单个周期时间内波峰减去波谷的数值，L|峰-谷|表示左脚踝部位的波形图d_L-t在单个周期时间内波峰减去波谷的数值；R|峰-谷|是右脚踝部位的波形图d_R-t在单个周期时间内波峰减去波谷的数值；

步骤7.1：构建数据集；

步骤7.2：构建SRNN模型；

步骤7.3：构建TPA注意力机制；

步骤7.3.1：将所述第q次划分时的输入序列x′_r,q输入SRNN模型中，并将模型每一层中所生成的n^q个n×1维的隐藏状态向量拼接为隐藏状态矩阵，选取所述隐藏状态矩阵中末尾的w个隐藏状态组成n×w维的状态矩阵H＝[h₁,h₂,…,h_w]，其中，h_w表示第w个隐藏状态；

步骤7.3.3：利用式(1)构造评分函数f(H_i ^C,h_t)：

f(H_i ^C,h_t)＝(H_i ^C)^TW_ah_t (1)

步骤7.3.4：利用式(2)构造关注权重α_i：

α_i＝sigmoid(f(H_i ^C,h_t)) (2)

式(2)中，sigmoid(·)表示sigmoid激活函数；

步骤7.3.5：利用式(3)得到k×1维当前时刻t的上下文向量v_t：

y＝W_h′h′_t (4)

h′_t＝W_hh_t+W_vv_t (5)