CN114360060A

CN114360060A - 人体动作识别计数方法

Info

Publication number: CN114360060A
Application number: CN202111671031.6A
Authority: CN
Inventors: 李世伟; 周世镒; 胡征慧; 刘庆杰; 王蕴红
Original assignee: Hangzhou Innovation Research Institute of Beihang University
Current assignee: Hangzhou Innovation Research Institute of Beihang University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-15
Anticipated expiration: 2041-12-31
Also published as: CN114360060B

Abstract

本发明公开了一种人体动作识别计数方法，包括以下步骤：将人体动作分解为冠状面和矢状面两个平面内的动作，采集人体平面内动作实时视频图像，将所述实时视频图像进行分帧和预处理后，输入人体关键骨骼点检测网络模型，输出每帧图像上的人体关键骨骼点检测结果；将得到的所述人体关键骨骼点检测结果输入预先配置的动作状态特征机，所述动作状态特征机按照所述人体关键骨骼点的置信度约束条件和特征点约束条件，确定用户是否完成对应动作。本发明采用一个通用模型匹配不同动作状态特征机，代码复用率高且计算量小，占用存储空间小，特征表达强，在保证计数准确的同时，具有更快的系统响应速度。

Description

人体动作识别计数方法

技术领域

本发明属于图像识别技术领域，具体涉及一种人体动作识别计数方法。

背景技术

人体动作识别主要应用于公共场所、医院、安全等方面；手势识别大部分应用于智能家居的感知与控制、教育学习、非能力限制的人员的表达等。一般处理人体动作识别，都是采用以下流程：首先收集数据，接着对收集到的数据进行预处理并提取出特征量，然后训练和分类，最后实现人体动作的识别。人体动作的坐标系按照人体解剖学姿势将人体分为三个平面，作为人体的基本标志，如图1所示，包括，矢状面通过躯干纵轴、前后位的垂直平面，将人体分为左右两半；冠状面，与矢状面成直角的垂直平面，将人体分为前后(背侧与腹侧)两部分；水平面又称横切面。通过人体与地平面平行的任一平面，将人体分为上下两部分。根据人体运动的特点，人体动作识别主要研究对象为矢状面和冠状面内的动作。

CN201910361909中公开了一种人体动作识别方法，包括对人体骨骼关节点的三维坐标数据进行特征提取，将所有的特征向量分到与之最近的聚类中心形成各个簇，计算各个簇的多元高斯分布概率密度函数和每一特征向量在各个簇的多元高斯概率密度值，将每一个特征向量重新分配至概率密度最大的簇中；利用最大似然估计更新各个簇的多元高斯分布函数参数，根据最终分配结果计算各个动作类型的隶属度，对每个簇的隶属度向量进行加权，最后判断该动作属于得分最高的动作类型。但是采用这种技术也大大增加了系统的计算量，特别是面对复杂动作的识别难以实时实现。

发明内容

本发明的一个目的是解决至少上述问题和/或缺陷，并提供至少后面将说明的优点。

本发明的目的在于提供一种人体动作识别计数方法，该方法采用一个通用模型匹配不同动作状态特征机，代码复用率高且计算量小，占用存储空间小，特征表达强，在保证计数准确的同时，具有更快的系统响应速度。

为了实现根据本发明的这些目的和其它优点，提供了一种人体动作识别计数方法，包括以下步骤：

步骤一，采集不同场景下的各种人体动作的图像，将所述人体动作分解为冠状面和矢状面两个平面内的动作图像，将所述动作图像进行分帧和预处理后，采用深度学习获得人体关键骨骼点检测网络模型，所述人体关键骨骼点检测网络模型输出人体关键骨骼点的置信度与坐标；

步骤二，引导用户在指定平面内完成静止准备动作，将所述静止准备动作图像输入所述人体关键骨骼点检测网络模型，再将得到的所述人体关键骨骼点检测结果输入预先配置的动作状态特征机，所述动作状态特征机按照所述人体关键骨骼点的置信度约束条件和特征点约束条件，确定用户是否完成所述静止准备动作，从而完成准备阶段，激活计数功能；

步骤三，引导用户在指定平面内完成后续动作，将所述平面内后续动作分解为若干时序子状态,进入计数阶段；将所述子状态动作图像输入所述人体关键骨骼点检测网络模型，再将得到的所述人体关键骨骼点检测结果输入所述动作状态特征机，所述动作状态特征机按照所述人体关键骨骼点的时序约束条件和临界特征点约束条件，判断每个所述子状态内所述人体关键骨骼点在平面内至少经历上抬、下降、屈曲、伸展中的任意一项，确定所有所述人体关键骨骼点完整地按顺序经历所述所有子状态，动作计数值加1。

优选的是，其中所述的人体关键骨骼点检测网络模型由深度学习获得，其训练数据为不同场景下的包含有各类人体姿态的图像，其输出为人体11个关键骨骼点的置信度与坐标；所述人体11个关键骨骼点依次为：鼻子、左肩、右肩、左手腕、右手腕、左臀骨、右臀骨、左膝盖、右膝盖、左脚踝、右脚踝。

优选的是，其中所述人体冠状面内的准备动作为：人体站立，双手呈V 字形摆放于身体上放，双脚自然张开站立，并保持人体大致位于图像中央；

所述人体冠状面内的准备动作的动作状态特征机的完整约束条件如下：

T{P_t∩C_t}＝T{P_t}×T{C_t}＝1

式中，P_t表示关键骨骼点的置信度约束条件，C_t表示关键骨骼点的特征约束条件，P_t∩C_t表示联合约束条件，t表示输入的图像帧序号，P_i,t表示第t帧图像上的第i个骨骼点的置信度，P_i,t∈[0,1]，x_i,t和y_i,t分别表示第t帧图像上的第i个骨骼点的横、纵坐标，l_w和lh分别表示图像的Y轴和Z轴方向上的像素总数；

T{*}为自定义算子，当条件成立时，T{*}＝1，反之，T{*}＝0；T{*}满足交换律和结合律；

计算如下式：

式中，v_t,i,j和v_t,i,k表示向量，·表示向量乘法，‖*‖表示向量求模；向量v_t,i,j计算如下式：

v_t,i,j＝(x_i,t-x_j,t,y_i,t-y_j,t)

向量v_t,i,k计算同理；w₀～w₃，h₀～h₄，a₀～a₃为经验常数值；

后续调用的人体尺寸特征值分别为：

m₃＝m₁-m₂

式中，m₀表示肩宽，m₁表示肩高(肩膀到脚踝的高度)，m₂表示上身长 (肩膀到臀部的高度)，m₃表示下身长(臀部到脚踝的高度)。

优选的是，其中所述平面内的人体关键骨骼点的上抬和下降动作的动作状态特征机的完整约束条件如下：

式中，Δt的为每片实际帧数的间隔时间；在第(t-Δt)帧到第t帧这段时间内，若T{U_t}＝1，表示人体关键骨骼点正在沿Z轴上抬；若T{D_t}＝1，表示人体关键骨骼点正在沿Z轴下降；h₅～h₆，H₀～H₁为经验常数值。

优选的是，其中所述平面内的人体关键骨骼点的屈曲和伸展动作的动作状态特征机的完整约束条件如下：

式中，在第(t-Δt)帧到第t帧这段时间内，若T{L_t}＝1，表示人体关键骨骼点正在沿Y轴伸展；若T{M_t}＝1，表示人体关键骨骼点正在沿Y轴屈曲； w₄～w₅，W₀～W₁为经验常数值。

优选的是，其中所述平面内后续动作的计数阶段共分解为N_s个子状态，所述每个子状态

的动作状态特征机的约束条件如下：

式中，t_n表示该子状态维持到临界特征点的截止帧序号，N_u，N_d，N_l和N_m分别表示子状态

中，上抬、下降、伸展和屈曲动作出现的总帧数；

表示临界特征映射约束条件，其输入为

表示第t_n帧下的11个骨骼点的坐标值，即：

根据动作特征和实验经验，具体可通过计算关键骨骼点的坐标绝对值、相对值以及骨骼夹角得到；

整个计数阶段的完整约束条件如下：

当T{S_t}＝1时，表明完整地按顺序经历各子状态一次，动作计数值加1。

优选的是，其中所述人体矢状面内的准备动作为：人体平躺仰卧于水平面，双手自然贴于身体两侧，双腿立起，使得臀部-膝盖-脚踝呈倒V字形，并保持人体大致位于图像中下方；

所述人体矢状面内的准备动作的动作状态特征机的完整约束条件如下：

T{P_t∩C_t}＝T{P_t}×T{C_t}＝1

式中，w₁₀～w₁₃，h₁₄～h₁₇，a₈～a₁₁为经验常数值；

后续调用的人体尺寸特征值分别为：

m₅＝y_6,t0-y_2,t0

式中，m₄表示手长(手腕到肩膀的长度)，m₅表示上身长(肩膀到臀部的长度)，m₆表示大腿长(臀部到膝盖的长度)，m₇表示小腿长(膝盖到脚踝的长度)。

本发明至少包括以下有益效果：本发明采用骨骼点检测网络模型加上动作特征状态机，即一个通用模型加上不同动作状态特征机，相比起直接对每个动作做模型匹配，本方案的代码复用率高，占用存储空间小，特征表达强，且计算量小，在保证计数准确的同时，实时性高。当有新的动作需求时，无需再训练网络模型，只需要根据动作特征修改状态机，开发周期短，容易实现。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明一个实施例中人体动作的基本运动平面和轴；

图2为本发明一个实施例中系统流程图；

图3为本发明一个实施例中冠状面内的静止准备动作示意图；

图4为本发明一个实施例中冠状面内开合跳的计数阶段3个子状态示意图；

图5为本发明一个实施例中矢状面内静止准备动作示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。

人体动作的基本运动轴包括以下3种，如图1所示：

矢状轴(X轴)，即矢状面2与水平面3交叉所形成的前后向轴(前为正、后为负)，即在水平面3向后贯穿人体的线。冠状轴(Y轴)，冠状面1与水平面3交叉所形成的左右侧向轴(右为正、左为负)，即在水平面3上由左向右贯穿人体的线。垂直轴(Z轴)，矢状面2与冠状面1交叉所形成的轴(上为正、下为负)，即上下贯穿于人体、垂直于水平面的线。

平面内人体的基本动作包括以下6种：上抬、下降、屈曲、伸展、外展和内收。其中上抬和下降为直线平移；屈曲为关节绕冠状轴Y运动，致相关关节的两骨彼此接近，其间的角度变小；伸展为关节绕冠状轴Y运动，致相关关节的两骨彼此离开，其间的角度变大。外展和内收与屈曲、伸展类似。

根据运动过程中人体与地面的接触情况，本发明将人体动作分解为冠状面和矢状面两个平面内的动作。其中，冠状面动作是指在运动过程中，人体与地面最多仅有足部接触，如开合跳、跳绳、深蹲等，主要考虑人体在冠状轴(Y轴)和垂直轴(Z轴)所形成的平面内上抬-下降、屈曲-伸展，对于这类动作，应从人体正前方采集全身图像；矢状面动作是指在运动过程中，人体与地面存在其他接触点，如仰卧起坐、俯卧撑、两头起等，主要考虑人体在矢状轴(X轴)和垂直轴(Z轴)所形成的平面内上抬-下降、外展-内敛，对于这类动作，从人体侧面采集侧身图像。

人体关键骨骼点检测网络模型由深度学习获得，其训练数据为不同场景下的包含有各类人体姿态的图像，其输出为人体11个骨骼点的置信度与坐标。其中，11个骨骼点依次为：鼻子、左肩、右肩、左手腕、右手腕、左臀骨、右臀骨、左膝盖、右膝盖、左脚踝、右脚踝。对于一张包含有人体的图像，骨骼点坐标即为该点相对于图像原点(以图像左上角作为原点)的位置，记为(x,y)，置信度则表征了该骨骼点检测的可信度，取值范围为0-1。示例地，若鼻子坐标为(0.5l_w,0.5l_h)，其中l_w和l_h分别表示图像的横、纵轴方向上的像素总数，置信度为0.5，表明网络模型认为此图像正中心为人的鼻子，且可信度为50％。

冠状面内的静止准备动作的约束条件：

人体站立，双手呈V字形摆放于身体上放，双脚自然张开站立，并保持人体大致位于图像中央，如图3所示。约束条件如式(1)-式(3)所示：

T{P_t}＝∏_iT{P_i,t∈[0.5,1]},i∈{0,1,…,10} (1)

T{P_t∩C_t}＝T{P_t}×T{C_t}＝1 (3)

式中，P_t表示关键骨骼点的置信度约束条件，C_t表示关键骨骼点的特征约束条件，P_t∩C_t表示联合约束条件，t表示输入的图像帧序号，P_i,t表示第t帧图像上的第i个骨骼点的置信度，P_i,t∈[0,1]，x_i,t和y_i,t分别表示第t帧图像上的第i个骨骼点的横、纵坐标，l_w和l_h分别表示图像的Y轴和Z轴方向上的像素总数；

计算如下式：

v_t,i,j＝(x_i,t-x_j,t,y_i,t-y_j,t) (5)

向量v_t,i,k计算同理；w₀～w₃，h₀～h₄，a₀～a₃为经验常数值，取值范围如表1 所示。

表1冠状面静止准备动作的经验常数及取值范围

经验常数名	取值范围
		w<sub>0</sub>，w<sub>3</sub>	[0.4,0.6]
w<sub>1</sub>，h<sub>1</sub>，h<sub>3</sub>	(0.7,0.9]
		w<sub>2</sub>，h<sub>4</sub>	[0.1,0.3]
h<sub>0</sub>，h<sub>2</sub>	[0.5,0.7]
		a<sub>0</sub>，a<sub>2</sub>	[-0.6,-0.8]
a<sub>1</sub>，a<sub>3</sub>	[-0.9,-1]

仅当式(3)成立时(假定此时t的取值为t₀)，表明第t₀帧图像上检测得到的准备动作的关键骨骼点同时满足置信度约束和特征约束，确定用户完成所述静止准备动作，从而完成准备阶段，激活计数功能。在进入计数阶段之前，对冠状面内的人体尺寸特征进行保存，以便后续计数阶段进行调用。示例地，记：

m₃＝m₁-m₂ (9)

冠状面内的计数阶段的约束条件：

冠状面动作抽象为人体关键骨骼点的一系列上抬-下降，屈曲-伸展。结合时序信息和临界特征点，即可实现对每个健身动作的数学重构。其中，时序信息是指每个人体在完成某项健身动作时，骨骼点的上抬-下降，屈曲与伸张具有先后顺序；而临界特征点是指，不同动作所涉及到的骨骼点的运动程度不同，这种程度可以用临界特征点进行定量描述。例如，对于深蹲动作，时序信息表现在，人体在反复做下蹲-站起这样一个上抬-下降的过程，而临界特征点是指，人体蹲到何种程度可以视作完成一次深蹲。

基于人体11点关键骨骼点模型，Z轴方向上的上抬和下降可以分别根据：

T{U_t}＝∑_iT{y_i,t-y_i,t-Δt≥h₅m₁}≥H₀,i∈{0,1,2,5,6,7,8} (10)

T{D_t}＝∑_iT{y_i,t-y_i,t-Δt≤-h₆m₁}≥H₁,i∈{0,1,2,5,6,7,8} (11)

进行判断。式中，Δt的具体取值与图像采集设备每秒能处理的实际帧数有关。一般性的，取1≤Δt≤5。在第(t-Δt)帧到第t帧这段时间内，若T{U_t}＝1，表示人体关键骨骼点正在沿Z轴上抬；若T{D_t}＝1，表示人体关键骨骼点正在沿Z轴下降。

Y轴方向上的屈曲和伸展可以分别根据：

T{L_t}＝∑_iT{x_i,t-x_i,t-Δt≥w₄m₁}≥W₀,i∈{3,4,7,8,9,10} (12)

T{M_t}＝∑_iT{x_i,t-x_i,t-Δt≤-w₅m₁}≥W₁,i∈{3,4,7,8,9,10} (13)

进行判断。在第(t-Δt)帧到第t帧这段时间内，若T{L_t}＝1，表示人体关键骨骼点正在沿Y轴伸展；若T{M_t}＝1，人体关键骨骼点正在沿Y轴屈曲。h₅～h₆， w₄～w₅，H₀～H₁，W₀～W₁为经验常数值，取值范围如表2所示。

表2上抬、下降、屈曲、伸展所涉及的经验常数及取值范围

经验常数名	取值范围
		w<sub>4</sub>，w<sub>5</sub>，h<sub>5</sub>，h<sub>6</sub>	[0.01,0.1]
H<sub>0</sub>，H<sub>1</sub>，W<sub>0</sub>，W<sub>1</sub>	[3,5]

对于每项动作，以完成一次并回到初始状态为例，其过程可以拆解为若干时序子状态。拆分的原则是，从一个子状态进入下一个子状态，人体骨骼点至少需要经历上抬、下降、屈曲、伸展这四项基本运动趋势中的任意一项，并且每个子状态要有自己的临界特征点。不失一般性，对任意冠状面动作的计数阶段，假定共有N_s个子状态，那么每个子状态

的约束条件用数学模型可以表示为：

中，上抬、下降、伸展和屈曲动作出现的总帧数，且有：

N_u+N_d+N_l+N_m≥1 (15)

t_u，t_d，t_l和t_m则分别表示满足上述四种运动趋势所对应的帧序号。显然有：

max{t_u,t_d,t_l,t_m}≤t_n (16)

表示临界特征映射约束条件，其输入为

表示第t_n帧下的11个骨骼点的坐标值，即：

根据动作特征和实验经验，具体可通过计算关键骨骼点的坐标绝对值、相对值以及骨骼夹角得到。注意到，为减少计算量，对式(15)可以进一步约束：

max{N_u,N_d,N_l,N_m}≤N_e (18)

式中，N_e由图像采集设备每秒帧数综合确定，经验取值范围为N_e≤5。

因此，整个计数阶段的约束条件表示为：

当T{S_t}＝1时，表明完整地按顺序经历各子状态一次，动作计数值加1。随后进入下一轮子状态判断。

以如图4所示的开合跳为例，这里将开合跳拆解为3个子状态——S₁:双手放下立正；S₂:双手与肩同高；S₃:双手在头顶合拢并且双腿张开。从S₁到 S₂过程中，双腿张开，双手抬起并张开，人跳起，因此骨骼点具备上抬和伸展这两项趋势；而当双手伸展至水平，并与双肩同高时，认为达到S₂的临界特征点，由此子状态变更为S₂。从S₂到S₃过程中，人跳起，双手继续上抬，并从水平逐渐收缩至头顶上方，然后人立定，因此骨骼点具备上抬、下降，并伴随有屈曲这三项趋势；而当双手于头顶上方拍合时，认为达到S₃的临界特征点，由此子状态变更为S₃。从S₃到S₁过程中，人体跳起，双手下落，并在水平方向上先伸展后收缩，双脚收缩，然后人立定，因此骨骼点具备上抬、下降，并伴随有伸展和收缩这四项趋势；而当手脚收缩至并拢，双手自然贴于身体两侧，认为达到S₁的临界特征点。由此按顺序逐步完成了S₁-S₂-S₃，并回到S₁，视作完成开合跳这一完整动作一次，计数值加1。

在上述设定下，开合跳的3个子状态的临界特征映射约束条件为：

式中，w₆～w₉，h₇～h₁₃，a₄～a₇为经验常数值，取值范围如表3所示。

表3开合跳临界特征约束的经验常数及取值范围

经验常数名	取值范围
		w<sub>6</sub>	[1.5,2]
w<sub>7</sub>	[0.1,0.3]
		w<sub>8</sub>，h<sub>13</sub>	[1,1.2]
w<sub>9</sub>，h<sub>12</sub>	[0.7,0.9]
		h<sub>7</sub>	[0.01,0.1]
h<sub>8</sub>，h<sub>10</sub>	[0.35,0.45]
		h<sub>9</sub>，h<sub>11</sub>	[0.55,0.65]
a<sub>4</sub>，a<sub>6</sub>	[-0.7,-0.9)
		a<sub>5</sub>，a<sub>7</sub>	[-0.9,-1]

矢状面内的静止准备动作：

人体平躺仰卧于水平面，双手自然贴于身体两侧，双腿立起，使得臀部- 膝盖-脚踝呈倒V字形，并保持人体大致位于图像中下方，如图5所示。对比冠状面动作的约束条件，式(2)变更为：

式中，w₁₀～w₁₃，h₁₄～h₁₇，a₈～a₁₁为经验常数值，取值范围如表4所示。

表4矢状面静止准备动作的经验常数名及取值范围

经验常数名	取值范围
		w<sub>10</sub>，h<sub>14</sub>	[0.1,0.3]
w<sub>11</sub>，h<sub>15</sub>，h<sub>16</sub>	[0.5,0.7]
		w<sub>12</sub>	[0.15,0.45]
w<sub>13</sub>	[0.65,0.95]
		h<sub>17</sub>	[0.75,0.95]
a<sub>8</sub>	[0,0.1)
		a<sub>9</sub>	[0.1,0.2]
a<sub>10</sub>	[-0.65,-0.85]
		a<sub>11</sub>	[-0.9,-1]

同样地，确定用户完成所述静止准备动作，从而完成准备阶段，激活计数功能。在进入计数阶段之前，对人体尺寸特征进行保存，以便后续计数阶段进行调用。与冠状面动作不同的是，这里的参考平面为矢状面。示例地，记，

矢状面内的计数阶段：

人体在做矢状面动作时，骨骼点在矢状轴(X轴)和垂直轴(Z轴)所形成的平面内上抬-下降、外展-内敛，矢状面动作同样可以抽象为人体关键骨骼点的一系列运动趋势以及所到达的特征临界点，然后通过若干个子状态进行重构，与冠状面内的约束条件类似。

这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

如上所述，根据本发明，提供了一种人体动作识别计数方法，该方法采用骨骼点检测网络模型加上动作特征状态机，即一个通用模型加上不同动作状态特征机，相比起直接对每个动作做模型匹配，本方案的代码复用率高，占用存储空间小，特征表达强，且计算量小，在保证计数准确的同时，实时性高。当有新的动作需求时，无需再训练网络模型，只需要根据动作特征修改状态机，开发周期短，容易实现。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明的领域。对于熟悉本领域的人员而言，可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种人体动作识别计数方法，其特征在于，包括以下步骤：

步骤一，采集不同场景下的各种人体动作的图像，将所述人体动作分解为冠状面和矢状面两个平面内的动作图像，在对所述动作图像进行分帧和预处理后，采用深度学习获得人体关键骨骼点检测网络模型，所述人体关键骨骼点检测网络模型输出人体关键骨骼点的置信度与坐标；

步骤三，引导用户在指定平面内完成后续动作，将所述平面内后续动作分解为若干时序子状态，进入计数阶段；将所述子状态动作图像输入所述人体关键骨骼点检测网络模型，再将得到的所述人体关键骨骼点检测结果输入所述动作状态特征机，所述动作状态特征机按照所述人体关键骨骼点的时序约束条件和临界特征点约束条件，判断每个所述子状态内所述人体关键骨骼点在平面内至少经历上抬、下降、屈曲、伸展中的任意一项，确定所有所述人体关键骨骼点完整地按顺序经历所述所有子状态，动作计数值加1。

2.如权利要求1所述的人体动作识别方法，其特征在于，所述的人体关键骨骼点检测网络模型由深度学习获得，其训练数据为不同场景下的包含有各类人体姿态的图像，其输出为人体11个关键骨骼点的置信度与坐标；所述人体11个关键骨骼点依次为：鼻子、左肩、右肩、左手腕、右手腕、左臀骨、右臀骨、左膝盖、右膝盖、左脚踝、右脚踝。

3.如权利要求2所述的人体动作识别方法，其特征在于，所述人体冠状面内的准备动作为：人体站立，双手呈V字形摆放于身体上放，双脚自然张开站立，并保持人体大致位于图像中央；

T{P_t∩C_t}＝T{P_t}×T{C_t}＝1

式中，P_t表示关键骨骼点的置信度约束条件，C_t表示关键骨骼点的特征约束条件，P_t∩C_t表示联合约束条件，t表示输入的图像帧序号，P_i，t表示第t帧图像上的第i个骨骼点的置信度，P_i，t∈[0，1]，x_i，t和y_i，t分别表示第t帧图像上的第i个骨骼点的横、纵坐标，l_w和l_h分别表示图像的Y轴和Z轴方向上的像素总数；