CN114511928A

CN114511928A - 一种基于持续监控的动作预测方法

Info

Publication number: CN114511928A
Application number: CN202210099728.9A
Authority: CN
Inventors: 杨剑宇; 邢慧琴; 黄瑶
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-05-17

Abstract

本发明提供了一种基于持续监控的动作预测方法，包括：将预设的人体动作序列样本划分为历史序列、待预测序列和未来序列，并将历史序列和未来序列输入预设的运动特征提取模块，提取历史运动特征和未来运动特征；将历史运动特征和未来运动特征相加后，输入预设的动作预测模块进行训练，构造双流动作预测网络；将历史序列和未来序列输入双流动作预测网络，训练双流动作预测网络和训练分类模块至收敛；将双流动作预测网络和分类模块加入字典模块，构建双流信息储存网络；将运动特征提取模块、分类模块、动作预测模块和字典模块相结合，构造自更新动作预测模型；将人体动作序列样本划分的历史序列输入自更新动作预测模型，确定动作预测结果。

Description

一种基于持续监控的动作预测方法

技术领域

本发明涉及大数据中心、动作预测技术领域，特别涉及一种基于持续监控的动作预测方法。

背景技术

目前，人体动作预测是计算机视觉领域的一个重要课题。它在人机交互、智能视频监控等领域有着广泛的应用。随着微软Kinect等电子设备的迅猛发展以及各种硬件的迅速更新，基于人体骨架的人体动作预测方法得到越来越多学者的关注。相比于基于视频的人体动作预测方法，基于人体骨架的人体动作预测方法鲁棒性强，不受光照和背景颜色混入等影响。

现有方法大都通过提取人体动作序列初始的历史运动特征，分析人体的惯性运动，进行人体动作预测。这些方法忽略了对人体动作意图的研究，因此在短期动作预测中效果较好，而在长期动作预测中效果较差。并且，这些方法更适合在有限长视频监控中进行动作预测，而在持续视频监控中并不适用。

因此，针对上述动作预测算法问题，提出一种持续监控中的动作预测方法。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于持续监控的动作预测方法流程图；

图2为本发明实施例中一种基于持续监控的动作预测方法的提取未来运动特征的流程流程图；

图3为本发明实施例中一种基于持续监控的动作预测方法的动作预测模块流程图；

图4为本发明实施例中一种基于持续监控的动作预测方法的双流动作预测网络流程图；

图5为本发明实施例中一种基于持续监控的动作预测方法的分类模块图；

图6为本发明实施例中一种基于持续监控的动作预测方法的双流信息储存网络流程图；

图7为本发明实施例中一种基于持续监控的动作预测方法的字典模块流程图；

图8为本发明实施例中一种基于持续监控的动作预测方法的自更新动作预测模型流程图；

图9为本发明实施例中一种基于持续监控的动作预测方法的20个关键点的人体骨架流程图；

图10为本发明实施例中一种基于持续监控的动作预测方法的中级别人体骨架流程图；

图11为本发明实施例中一种基于持续监控的动作预测方法的高级别人体骨架流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

需说明的是，当部件被称为“固定于”或“设置于”另一个部件，它可以直接在另一个部件上或者间接在该另一个部件上。当一个部件被称为是“连接于”另一个部件，它可以是直接或者间接连接至该另一个部件上。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，“多个”的含义是两个或两个以上，除非另有明确具体的限定。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

作为本技术方案的一种实施例，一个人体动作序列样本包含100帧人体骨架，以任意人体动作序列样本V为例：

V＝[X₁,...,X_t,...,X₁₀₀],t∈[1,100],

其中，t表示时间索引，人体动作序列样本V共有100帧。

为人体动作序列样本V的第t帧人体骨架的矩阵表示，该帧人体骨架的矩阵表示的行数和列数分别为20和60，R表示矩阵为实数矩阵,该帧人体骨架由20个关键点表示，每个关键点由1个60维的向量表示,该帧人体骨架如图9所示。

将人体动作序列样本V划分为历史序列、待预测序列和未来序列,其中，历史序列有50帧，待预测序列有25帧，未来序列有25帧,此时，人体动作序列样本可以表示为由历史序列、待预测序列和未来序列组成的集合，用公式表达如下：

V＝{V_history,V_predict,V_future},

其中，V_history表示历史序列，V_predict表示待预测序列，V_future表示未来序列，历史序列V_history的公式表达如下：

V_history＝[X₁,...,X_h,...,X₅₀]，h∈[1,50]，

其中，h表示时间索引，历史序列共有50帧。历史序列由人体动作序列样本V的第1帧人体骨架到第50帧人体骨架构成。

为历史序列V_history的第h帧人体骨架的矩阵表示；待预测序列V_predict的公式表达如下：

V_predict＝[X₅₁,...,X_p,...,X₇₅],p∈[51,75]，

其中，p表示时间索引，待预测序列共有25帧，待预测序列由人体动作序列样本V的第51帧人体骨架到第75帧人体骨架构成，

为待预测序列V_predict的第p帧人体骨架的矩阵表示。

未来序列V_future的公式表达如下：

V_future＝[X₇₆,…,X_f,…,X₁₀₀],f∈[76,100]，

其中,f表示时间索引，未来序列共有25帧。未来序列由人体动作序列样本V的第76帧人体骨架到第100帧人体骨架构成。

为待预测序列V_predict的第f帧人体骨架的矩阵表示。

作为本技术方案的一种实施例，将人体动作序列样本划分的历史序列输入运动特征提取模块提取历史运动特征，人体动作序列样本划分的未来序列输入运动特征提取模块提取未来运动特征。运动特征提取模块包括：速度计算模块，加速度计算模块，级别划分模块，融合模块1，融合模块2，低级别时空卷积模块1，低级别时空卷积模块2，低级别时空卷积模块3，低级别时空卷积模块4，中级别时空卷积模块1，中级别时空卷积模块2，中级别时空卷积模块3，中级别时空卷积模块4，高级别时空卷积模块1，高级别时空卷积模块2，高级别时空卷积模块3，高级别时空卷积模块4，特征融合模块和特征级联模块。

作为本技术方案的一种实施例，人体动作序列样本划分的历史序列输入运动特征提取模块提取历史运动特征的流程如图1所示，速度计算模块的输入为人体动作序列样本划分的历史序列V_history，输出为历史速度序列V_{history_v}。V_{history_v}的公式表达如下：

V_{history_v}＝[vel₁,...,vel_h,...,vel₅₀],h∈[1,50]，其中，

为历史速度序列V_{history_v}中第h帧骨架的矩阵表达。vel_h的计算方式如下：

加速度计算模块的输入为历史速度序列V_{history_v}，输出为历史加速度序列V_{history_a}。V_{history_a}的公式表达如下：

V_{history_a}＝[acl₁,...,acl_h,...,acl₅₀],h∈[1,50]，其中，

为历史加速度序列V_{history_a}中第h帧骨架的矩阵表达。acl_h的计算方式如下：

如图1最左侧一列所示，级别划分模块1的输入为V_history，其有三个输出，分别为V_{hp_1}、V_{hp_2}和V_{hp_3}。V_{hp_1}代表低级别人体骨架的历史序列、V_{hp_2}代表中级别人体骨架的历史序列，V_{hp_3}代表高级别人体骨架的历史序列。级别划分模块由池化层1和池化层2组成。池化层1由10个池化尺寸为2的平均池化层组成。池化层2由5个池化尺寸为4的平均池化层构成。V_{hp_1}＝V_history，表示将历史序列看作低级别人体骨架的历史序列。历史序列V_history输入至池化层1中，得到中级别人体骨架的历史序列V_{hp_2}。V_{hp_2}的表达式如下所示：

V_{hp_2}＝[mid₁,...,mid_h,...,mid₅₀],h∈[1,50]，

其中，

为中级别人体骨架的历史序列中第h帧骨架的矩阵表示。该帧人体骨架如图10所示。历史序列V_history输入至池化层2，得到高级别人体骨架的历史序列V_{hp_3}。V_{hp_3}的表达式如下所示：

V_{hp_3}＝[high₁,...,high_h,...,high₅₀],h∈[1,50]，其中，

为高级别人体骨架的历史序列中第h帧骨架的矩阵表示，该帧人体骨架如图11所示。

低级别时空卷积模块1的输入为V_{hp_1}，输出为F_{hp_11}。低级别时空卷积模块1包含1个空间图卷积层和1个时间卷积层。空间图卷积层有64个卷积核，每个卷积核大小为1×1。时间卷积层有32个卷积核，每个卷积核的大小为5×1。中级别时空卷积模块1的结构与低级别时空卷积模块1的结构一致，其输入为V_{hp_2}，输出为F_{hp_12}。高级别时空卷积模块1的结构与低级别时空卷积模块1的结构一致，其输入为V_{hp_3}，输出为F_{hp_13}。

融合模块1包含低级别卷积层1，低级别线性层1，低级别聚集相关特征层1，低级别更新特征层1，低级别特征融合层1，中级别卷积层1，中级别线性层1，中级别聚集相关特征层1，中级别更新特征层1，中级别特征融合层1，高级别卷积层1，高级别线性层1，高级别聚集相关特征层1，高级别更新特征层1和高级别特征融合层1。

低级别卷积层1包含32个卷积核，每个卷积核大小为5×1，低级别卷积层1的输入为F_{hp_11}，输出为G₁₁。低级别线性层1由3层全连接层构成，其输入为G₁₁，输出为F₁₁。

F₁₁表示提取的低级别人体骨架中所有关键点的特征。

表示提取的低级别人体骨架中第i个关键点的特征，

表示提取的低级别人体骨架中第j个关键点的特征。针对低级别人体骨架中的第i个关键点，低级别聚集相关特征层1把剩余19个关键点的特征聚合到第i个关键点上，然后经过3层全连接层，其公式表达如下：

其中，[·,·]表示按照通道连接，f₁₁(·)表示3层全连接层，r_{11_i}为1个列向量。对低级别人体骨架中所有关键点都执行上述操作后，得到R₁₁。R₁₁的公式表达如下：

R₁₁＝(r_{11_1},...,r_{11_i},...,r_{11_20})，i∈[1,20]，

该公式表示R₁₁是由20个列向量组成的二维张量。低级别更新特征层1的输入为R₁₁，输出为H₁₁。低级别更新特征层1用来更新特征，其由3层全连接层构成，特征更新的公式表达如下：

H₁₁＝g₁₁([F₁₁,R₁₁])，

其中，[·,·]表示按照通道连接，g₁₁(·)表示3层全连接层，H₁₁为更新后的低级别人体骨架中所有关键点的特征。

中级别卷积层1的结构与低级别卷积层1的结构一致，其输入为F_{hp_12}，输出为G₁₂。中级别线性层1的结构与低级别线性层1的结构一致，其输入为G₁₂，输出为F₁₂。中级别聚集相关特征层1的结构与低级别聚集相关特征层1的结构一致，其输入为F₁₂，输出为R₁₂。中级别更新特征层1的结构与低级别更新特征层1的结构一致，其输入为R₁₂，输出为H₁₂。H₁₂为更新后的中级别人体骨架中所有关键点的特征。

高级别卷积层1的结构与低级别卷积层1的结构一致，其输入为F_{hp_13}，输出为G₁₃。高级别线性层1的结构与低级别线性层1的结构一致，其输入为G₁₃，输出为F₁₃。高级别聚集相关特征层1的结构与低级别聚集相关特征层1的结构一致，其输入为F₁₃，输出为R₁₃。高级别更新特征层1的结构与低级别更新特征层1的结构一致，其输入为R₁₃，输出为H₁₃。H₁₃为更新后的中级别人体骨架中所有关键点的特征。

低级别特征融合层1的输入为H₁₁和H₁₂，输出为S_{hp_11}。在低级别特征融合层1中，H₁₁和H₁₂先经过1个softmax函数，其公式表达如下：

其中，T表示转置，A₁₂表示连接权重矩阵。softmax函数用来将输入向量的每一个元素的值归一化至(0,1)之间，每一个元素的计算公式如下：

其中，e表示自然底数，K表示输入向量包含的元素数目，a_l表示输入向量的第l个元素，a_k表示输入向量的第k个元素，S_l表示输入向量的第l个元素的值归一化后的结果。接着，将H₁₂融合至H₁₁中，其公式表达如下：

S_{hp_11}＝A₁₂·H₁₂*0.3+H₁₁，

其中，S_{hp_11}表示H₁₂和H₁₁融合后的特征，也是低级别特征融合层1的输出，0.3表示权重。

中级别特征融合层1的输入为H₁₁、H₁₂和H₁₃，输出为S_{hp_12}。在中级别特征融合层1中，H₁₁和H₁₂先经过1个softmax函数，其公式表达如下：

其中，T表示转置，A₂₁表示连接权重。接着，H₁₃和H₁₂经过1个softmax函数，其公式表达如下：

其中，T表示转置，A₂₃表示连接权重。接着，将H₁₁和H₁₃融合至H₁₂中，其公式表达如下：

S_{hp_12}＝(A₂₁·H₁₁+A₂₃·H₁₃)*0.3+H₁₂，其中，S_{hp_12}表示H₁₁、H₁₂和H₁₃融合后的特征，也是中级别特征融合层1的输出，0.3表示权重。

高级别特征融合层1的输入为H₁₃和H₁₂，输出为S_{hp_13}。在高级别特征融合层1中，H₁₃和H₁₂先经过1个softmax函数，其公式表达如下：

其中，T表示转置，A₃₂表示连接权重矩阵。接着，将H₁₂融合至H₁₃中，其公式表达如下：

S_{hp_13}＝A₃₂·H₁₂*0.3+H₁₃，

其中，S_{hp_13}表示H₁₂和H₁₃融合后的特征，也是高级别特征融合层1的输出，0.3表示权重。

低级别时空卷积模块2的输入为S_{hp_11}，输出为F_{hp_21}。低级别时空卷积模块2包含1个空间图卷积层和1个时间卷积层。空间图卷积层有128个卷积核，每个卷积核大小为1×1。时间卷积层有64个卷积核，每个卷积核的大小为5×1。中级别时空卷积模块2的输入为S_{hp_12}，输出为F_{hp_22}。中级别时空卷积模块2的结构与低级别时空卷积模块2的结构一致，其输入为S_{hp_12}，输出为F_{hp_22}。高级别时空卷积模块2的结构与低级别时空卷积模块2的结构一致，其输入为S_{hp_13}，输出为F_{hp_23}。

融合模块2的结构与融合模块1的结构一致，融合模块2共有3个输出，分别为S_{hp_21}、S_{hp_22}和S_{hp_23}。

低级别时空卷积模块3的输入为S_{hp_21}，输出为S_{hp_31}。低级别时空卷积模块3包含1个空间图卷积层和1个时间卷积层。空间图卷积层有256个卷积核，每个卷积核大小为1×1。时间卷积层有128个卷积核，每个卷积核的大小为5×1。输入为S_{hp_22}，输出为S_{hp_32}中级别时空卷积模块3结构与低级别时空卷积模块3的结构一致，其输入为S_{hp_22}，输出为S_{hp_32}。高级别时空卷积模块3的结构与低级别时空卷积模块3的结构一致，其输入为S_{hp_23}，输出为S_{hp_33}。

低级别时空卷积模块4的输入为S_{hp_31}，输出为S_{hp_41}。低级别时空卷积模块4包含1个空间图卷积层和1个时间卷积层。空间图卷积层有512个卷积核，每个卷积核大小为1×1。时间卷积层有256个卷积核，每个卷积核的大小为5×1。中级别时空卷积模块4的结构与低级别时空卷积模块4的结构一致，其输入为S_{hp_32}，输出为S_{hp_42}。高级别时空卷积模块4的结构与低级别时空卷积模块4的结构一致，其输入为S_{hp_33}，输出为S_{hp_43}。

特征融合模块的输入为S_{hp_41}、S_{hp_42}和S_{hp_43}，输出为S_hp。为了使S_{hp_41}、S_{hp_42}和S_{hp_43}三者的张量尺寸大小一致。特征融合模块对S_{hp_42}进行10次上采样，得到

并对

赋予权重0.6得到

对S_{hp_43}进行5次上采样，得到

并对

赋予权重0.6得到

接着将S_{hp_41}、

和

相加。S_hp的表达式如下：

其中，

和

的权重均为0.6。

如图1中间一列所示，其结构与图1最左侧一列的结构一致。图1中间一列的输入为历史速度序列V_{history_v}，输出为S_hv。如图1最右侧一列所示，其结构与图1最左侧一列的结构一致。图1最右侧一列的输入为历史加速度序列V_{history_a}，输出为S_ha。

特征级联模块的输入为S_hp、S_hv和S_ha，输出为H_history。H_history由S_hp、S_hv和S_ha按通道拼接所得。H_history代表历史运动特征。

人体动作序列样本划分的未来序列V_future输入运动特征提取模块提取未来运动特征的流程与人体动作序列样本划分的历史序列V_history输入运动特征提取模块提取历史特征的流程一致，如图2所示，H_future代表未来运动特征。

作为本技术方案的一种实施例，将历史运动特征和未来运动特征相加，输入动作预测模块。历史运动特征和未来运动特征相加得到联合运动特征，用公式表达如下：

H＝H_future+H_history，

其中，H表示联合运动特征。

动作预测模块由循环神经网络构成，该循环神经网络共有25个循环，其结构如图3所示，包括速度计算模块、加速度计算模块、门控循环单元GRU和线性层。动作预测模块有4个输入，分别为联合运动特征H、人体动作序列样本V中的第48帧人体骨架X₄₈、第49帧人体骨架X₄₉、和第50帧人体骨架X₅₀。

如图3最左侧一列所示，它表示第1个循环。速度计算模块的输入为人体动作序列样本V的第49帧人体骨架X₄₉和第50帧人体骨架X_T50，其输出为S₀,S₀的计算方法如下：

其中，S₀表示人体动作序列样本V的第50帧人体骨架的速度。

加速度计算模块的输入为人体动作序列样本V中的第48帧人体骨架X₄₈、第49帧人体骨架X₄₉、和第50帧人体骨架X₅₀，其输出为C₀,C₀的计算方法如下：

其中，C₀表示人体动作序列样本V的第50帧人体骨架的加速度。

接着，将S₀、C₀和X₅₀按照通道连接，得到I₀。门控循环单元GRU模块的输入为I₀和H，输出为B₀和H₁。线性层的输入为B₀，输出为F₀。F₀的计算方式如下：

F₀＝W₀·B₀+θ₀,

其中，W₀是线性层的权重，θ₀是线性层的偏置向量。

将线性层的输出F₀和人体动作序列样本V中第50帧人体骨架X₅₀相加，得到人体动作序列样本V的第51帧人体骨架的预测结果

如图3第2列所示，它表示第2个循环，其结构与第1个循环的结构一致。第2个循环的输入为人体动作序列样本V的第51帧人体骨架的预测结果

人体动作序列样本V的第50帧人体骨架X₅₀、第49帧人体骨架X₄₉和第1个循环中GRU的其中一个输出H₀。第2个循环的输出为人体动作序列样本V的第52帧人体骨架的预测结果

如图3最右侧一列所示，它表示第25个循环，其结构与第1个循环的结构一致。第25个循环的输入为人体动作序列样本V的第74帧人体骨架的预测结果

第73帧人体骨架的预测结果

第72帧人体骨架的预测结果

和第24个循环中GRU的其中一个输出H₂₄。第25个循环的输出为人体动作序列样本V的第75帧人体骨架的预测结果

动作预测模块的输出为计算所得的待预测序列

的表达式如下所示：

其中，

为计算所得的待预测序列的第p帧骨架的矩阵表示。

作为本技术方案的一种实施例，构造双流动作预测网络，如图4所示，该网络的输入为人体动作序列样本划分的历史序列和未来序列，输出为计算所得的待预测序列，即动作预测模块的输出

动作预测模块输出的第n个预测序列样本为

且一共有32个样本。网络的损失函数L₁为：

其中，||·||₁表示1范数，

是第n个预测序列的真实值。

作为本技术方案的一种实施例，将用来训练的人体动作序列样本划分的历史序列和未来序列输入双流动作预测网络，训练网络至收敛。其中，用来训练的人体动作序列样本取自于持续监控领域。

作为本技术方案的一种实施例，将训练好的运动特征提取模块提取的历史运动特征输入分类模块，进行动作分类，训练分类模块至收敛。分类模块的结构如图5所示，线性层1的输入为训练好的运动特征提取模块提取的历史运动特征H_history，线性层1包含的神经元数目为2560，线性层1的输出Q₁的计算方式如下：

其中，W₁是线性层1的权重，θ₁是线性层1的偏置向量，

是relu激活函数，其公式如下：

x是relu激活函数的输入，当x大于等于0时，relu激活函数的输出为x，当x小于0时，relu激活函数的输出为0。

线性层2的输入为Q₁，线性层2包含神经元的数目为1280，线性层2的输出Q₂的计算方式如下：

其中，

是relu激活函数，W₂是线性层2的权重，θ₂是线性层2的偏置向量。

线性层3的输入为Q₂，线性层3包含神经元的数目为15，线性层3的输出Q₃的计算方式如下：

其中，W₃是线性层3的权重，θ₃是线性层3的偏置向量，

是softmax激活函数。Q₃的输出表示输入的历史运动特征属于各个动作类别的概率。动作类别的总数与线性层3包含神经元的数目一致，为15。选择Q₃中最大的概率值对应的动作类别作为分类模块的输出。

将用来训练的人体动作序列样本划分的历史序列输入训练好的运动特征提取模块，得到历史运动特征样本。再将历史运动特征样本输入至分类模块，训练分类模块至收敛。训练分类模块使用的损失函数L₂为：

其中，动作类别的总数为15，输入的历史运动特征样本的总数为32,

是第a个历史运动特征样本的网络输出，I_a是第a个历史运动特征样本的期望输出，其中I_a的第g维数据定义为：

其中，i_a是第a个历史运动特征样本的标签值。

作为本技术方案的一种实施例，将训练好的双流动作预测网络和训练好的分类模块相结合，并加入储存信息的空的字典模块，构建双流信息储存网络，如图6所示。图6第1行中的运动特征提取模块的输入为用来训练的人体动作序列样本划分的历史序列，输出为历史运动特征H_history。图6第2行中的运动特征提取模块的输入为用来训练的人体动作序列样本划分的未来序列，输出为未来运动特征H_future。分类模块的输入为历史运动特征H_history，输出为该历史运动特征属于的动作类别。字典模块的输入为分类模块输出的动作类别、历史运动特征H_history和未来运动特征H_future。历史运动特征和未来运动特征相加，输入动作预测模块，得到动作预测结果。

作为本技术方案的一种实施例，将用来训练的人体动作序列样本划分的历史序列和未来序列输入双流信息储存网络，在字典模块储存每一种动作的历史运动特征和未来运动特征的对应关系。字典模块的结构如图7所示，字典模块中的键用来表示动作类别：key₁表示第1个动作类别，key₁₅用来表示第15个动作类别。字典模块中每一个键对应的值为一个子字典：value₁表示第1个子字典，value₁₅表示第15个子字典。第1个子字典value₁的键用来存储第1个动作类别的历史运动特征，第1个子字典value₁的值用来存储第1个动作类别的未来运动特征：键

用来存储第1个动作类别的第1个历史运动特征

值

用来存储第1个动作类别的第1个未来运动特征

键

用来存储第1个动作类别的第2000个历史运动特征

值

用来存储第1个动作类别的第2000个未来运动特征

第15个子字典value₁₅的键用来存储第15个动作类别的历史运动特征，值用来存储第15个动作类别的未来运动特征。键

用来存储第15个动作类别的第1个历史运动特征

值

用来存储第15个动作类别的第1个未来运动特征

键

用来存储第15个动作类别的第2000个历史运动特征

值

用来存储第15个动作类别的第2000个未来运动特征

作为本技术方案的一种实施例，将训练好的运动特征提取模块、训练好的分类模块、训练好的动作预测模块和储存完信息的字典模块相结合，构造自更新动作预测模型，自更新动作预测模型如图8所示。自更新动作预测模型共进行25次动作预测，其输入为测试的人体动作序列样本的历史序列

输出为最终的动作预测结果

其中，测试的人体动作序列样本取自于持续监控领域。

如图8第1列所示，它包括运动特征提取模块、分类模块、字典模块和动作预测模块，它表示第1个迭代过程，用来进行第1次动作预测。运动特征提取模块的输入为测试的人体动作序列样本划分的历史序列

输出为测试的人体动作序列样本的历史运动特征

分类模块的输入为测试的人体动作序列样本的历史运动特征

输出为动作类别g₁。字典模块的输入为动作类别g₁和测试的人体动作序列样本的历史运动特征

输出为查找得到的未来运动特征

查找未来运动特征的方法如下：

(1)将测试的人体动作序列样本的历史运动特征

向量化，即将

的所有行向量连接成新的行向量

为维度为2560的向量。

(2)在字典模块中选择动作类别g₁对应的子字典

对子字典

的第i个键存储的历史运动特征

向量化，即将

的所有行向量连接成新的行向量

为维度为2560的向量。

(3)计算测试的人体动作序列样本的历史运动特征与动作类别g₁存储的第i个历史运动特征间的余弦相似度，计算方法如下：

其中，·表示点积运算，

表示

的2范数，

表示

的2范数，sim_i代表测试的人体动作序列样本的历史运动特征与动作类别g₁存储的第i个历史运动特征间的余弦相似度。

(4)计算动作类别g₁存储的所有历史运动特征与测试的人体动作序列样本的历史运动特征间的相似度，得到{sim₁,...,sim_i,...,sim₂₀₀₀}。

(5)查找余弦相似度的最大值sim_j，sim_j＝max{sim₁,...,sim_i,...,sim₂₀₀₀}。

(6)在动作类别g₁对应的子字典中查找第j个键

并找到第j个键对应的值

将

存储的未来运动特征

作为查找得到的未来运动特征

接着，将测试的人体动作序列样本的历史运动特征

和查找得到的未来运动特征

相加，输入动作预测模块，得到第1次动作预测结果

其公式表达如下：

其中，

为第1次动作预测结果的第p帧骨架的矩阵表达，

为测试的人体动作序列样本V的第51帧人体骨架的预测结果。

如图8第2列所示，它表示第1次更新过程，用来进行第2次动作预测，其结构与图8第1列的结构一致。运动特征提取模块的输入为第1次重构的历史序列

输出为第1次更新后的历史运动特征

第1次重构的历史序列

由测试的人体动作序列样本划分的历史序列

的第2帧人体骨架X₂到第50帧人体骨架X₅₀和第1次动作预测结果中的首帧人体骨架

构成，公式表达如下：

分类模块的输入为第1次更新后的历史运动特征

输出为第1次更新后的动作类别g₂。字典模块的输入为第1次更新后的历史运动特征

和第1次更新后的动作类别g₂，输出为第1次更新后查询得到的未来运动特征

将第1次更新后的历史运动特征

和第1次更新后查询得到的未来运动特征

相加，输入动作预测模块，得到第2次动作预测结果

第2次动作预测结果

的公式表达如下：

其中，

为第2次动作预测结果的第p帧骨架的矩阵表达，

为测试的人体动作序列样本V的第52帧人体骨架的预测结果。

如图8第3列所示，它表示第2次更新过程，用来进行第3次动作预测，其结构与图8第1列的结构一致。运动特征提取模块的输入为第2次重构的历史序列

输出为第2次更新后的历史运动特征

第2次重构的历史序列

由测试的人体动作序列样本划分的历史序列

的第3帧人体骨架X₃到第50帧人体骨架X₅₀、第1次动作预测结果中的首帧人体骨架

和第2次动作预测结果中的首帧人体骨架

构成，其公式表达如下：

分类模块的输入为第2次更新后的历史运动特征

输出为第2次更新后的动作类别g₃。字典模块的输入为第2次更新后的历史运动特征

和第2次更新后的动作类别g₃，输出为第2次更新后查询得到的未来运动特征

将第2次更新后的历史运动特征

和第2次更新后查询得到的未来运动特征

相加，输入动作预测模块，得到第3次动作预测结果

第3次动作预测结果

的公式表达如下：

其中，

为第3次动作预测结果的第p帧骨架的矩阵表达，

为测试的人体动作序列样本V的第53帧人体骨架的预测结果。

图8最后1列为第24次更新过程，用来进行第25次动作预测，其结构与图8第1列的结构一致，其最终的输出为第25次动作预测结果

的公式表达如下：

其中，

为第25次动作预测结果的第p帧骨架的矩阵表达，

为测试的人体动作序列样本V的第75帧人体骨架的预测结果。

最终的动作预测结果

由上述每次动作预测结果中的首帧人体骨架组合而成，其公式表达如下：

其中，

表示第1次动作预测结果的首帧人体骨架，

表示第q次动作预测结果的首帧人体骨架，

表示第25次动作预测结果的首帧人体骨架。

作为本技术方案的一种实施例，将用来测试的人体动作序列样本划分的历史序列输入自更新的动作预测模型，实现动作预测。

本技术方案的有益效果在于：提出的自更新动作预测模型能够更新人体动作序列样本的历史运动特征，使得人体动作意图更加明确，有助于提高长期动作预测的准确率。并且，自更新动作预测模型更适用于持续视频监控中的动作预测。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于持续监控的动作预测方法，其特征在于，包括：

步骤1:将预设的人体动作序列样本划分为历史序列、待预测序列和未来序列，并将历史序列和未来序列输入预设的运动特征提取模块，提取历史运动特征和未来运动特征；其中，

所述运动特征提取模块中包括速度计算模块，加速度计算模块，级别划分模块，融合模块，时空卷积模块，特征融合模块和特征级联模块；

步骤2:将历史运动特征和未来运动特征相加后，并输入预设的动作预测模块进行训练，构造双流动作预测网络；

步骤3:将历史序列和未来序列输入双流动作预测网络，训练双流动作预测网络至收敛；

步骤4:通过经过训练的运动特征提取模块，提取历史运动特征输入预设的分类模块进行动作分类，训练分类模块至收敛；

步骤5:将经过训练的双流动作预测网络和分类模块结合并加入预设的字典模块，构建双流信息储存网络；其中，

所述双流信息储存网络的字典模块储存每一种动作的历史运动特征和未来运动特征的对应关系；

步骤6:将训练好的运动特征提取模块、训练好的分类模块、训练好的动作预测模块和储存完信息的字典模块相结合，构造自更新动作预测模型；

步骤7:将用来测试的人体动作序列样本划分的历史序列输入自更新动作预测模型，确定动作预测结果。

2.如权利要求1所述的一种基于持续监控的人体动作预测方法，其特征在于，所述步骤1，包括：

步骤11：通过预设的若干帧人体骨架样本，构建人体动作序列样本：

V＝[X₁,…,X_t,…,X_N]

其中，V代表人体动作序列样本，t代表人体动作序列样本的第t个帧数,t∈[1,N]，N代表人体动作序列样本的总帧数，X_t∈R^M×D,R^M×D代表人体动作序列样本V的第t帧人体骨架的矩阵，M代表第t帧人体骨架包含的关键点个数；D代表第t帧人体骨架中每个关键点的向量表示的维数；

步骤12：将人体动作序列样本V划分为历史序列V_history、待预测序列V_predict和未来序列V_future；其中，

V＝{V_history,V_predict,V_future}，

其中，V_history代表历史序列，h代表关于历史序列的时间索引，h∈[1,T_history]，T_history∈[1,T_predict]，T_history代表历史序列的总帧数；X_h∈R^M×D，X_h代表历史序列的第h帧人体骨架的矩阵，X₁代表历史序列的第1帧人体骨架的矩阵，

代表历史序列的最后1帧人体骨架的矩阵；V_predict代表待预测序列，p代表关于待预测序列的时间索引，p∈[T_history+1,T_history+T_predict]，T_predict代表待预测序列的总帧数，T_predict∈[T_predict,T_future]；X_p∈R^M×D，X_p代表待预测序列的第p帧人体骨架的矩阵；

代表历史序列的第1帧人体骨架的矩阵；

代表历史序列的最后1帧人体骨架的矩阵；V_future代表未来序列，f代表关于历史序列的时间索引，f∈[T_history+T_predict+1,T_history+T_predict+T_future]，T_future代表未来序列的总帧数，T_future∈[T_future,N]；X_f∈R^M×^D，X_f代表未来序列的第f帧人体骨架的矩阵；

代表未来序列的第1帧人体骨架的矩阵，

代表未来序列的最后1帧人体骨架的矩阵，N＝T_history+T_predict+T_future；

步骤13：通过速度计算模块，对历史序列进行速度特征提取，确定历史速度序列；

其中，V_{history_v}代表历史速度序列，vel₁代表历史速度序列中的第1帧骨架的矩阵，

代表未来速度序列中的第1帧骨架的矩阵，

为历史速度序列V_{history_v}中第h帧骨架的矩阵表示，

h代表关于历史序列的时间索引，X_h代表历史序列的第h帧人体骨架的矩阵，X_h-1代表历史序列的第h-1帧人体骨架的矩阵，

代表历史速度序列中的第T_history帧骨架的矩阵，T_history代表历史序列的总帧数；

步骤14：通过加速度计算模块，对所述历史速度序列进行计算，确定历史加速度序列：

其中，V_{history_a}代表历史加速度序列，acl₁代表历史加速度序列中的第1帧骨架的矩阵，acl_h代表历史加速度序列中的第h帧骨架的矩阵，

代表历史加速度序列中的第T_history帧骨架的矩阵；

步骤15：通过级别划分模块，分别将所述历史序列进行级别划分，划分为低级历史序列，中级历史序列和高级历史序列；

其中，V_{hp_1}代表低级历史序列，V_history代表历史序列，V_{hp_2}代表历史序列输入第一池化层得到的关于人体骨架的中级历史序列，mid_h∈R^W×D,R^W×D代表关于人体骨架的中级历史序列的第h帧人体骨架的矩阵，W和D代表中级历史序列中第h帧骨架的矩阵的行数和列数，V_{hp_3}代表高级历史序列，V_{hp_3}是通过历史序列输入第二池化层得到的关于人体骨架的高级历史序列，high_h∈R^U×D，U和D分别对应高级历史序列中第h帧骨架的矩阵的行数和列数；

步骤16：将低级历史序列，中级历史序列和高级历史序列依次传输至对应的时空卷积模块1、融合模块1、时空卷积模块2、融合模块2、时空卷积模块3和时空卷积模块4，生成对应的历史融合特征；

步骤17：将未来序列传输到步骤13-步骤15，生成对应的未来融合特征；所述步骤17包括：

步骤170：将未来序列传输至速度计算模块，获取对应的未来速度序列；

步骤171：将所述未来速度序列传输至加速度计算模块，计算对应的未来加速度序列；

步骤172：将所述未来加速度序列传输至级别划分模块，确定低级未来序列，中级未来序列和高级未来序列；

步骤173：将低级未来序列，中级未来序列和高级未来序列依次传输至对应的时空卷积模块1、融合模块1、时空卷积模块2、融合模块2、时空卷积模块3和时空卷积模块4，生成对应的未来融合特征；其中，

所述融合模块1包含低级别卷积层1，低级别线性层1，低级别聚集相关特征层1，低级别更新特征层1，低级别特征融合层1，中级别卷积层1，中级别线性层1，中级别聚集相关特征层1，中级别更新特征层1，中级别特征融合层1，高级别卷积层1，高级别线性层1，高级别聚集相关特征层1，高级别更新特征层1和高级别特征融合层1；

步骤18：通过所述历史融合特征和未来融合特征，生成历史运动特征和未来运动特征。

3.如权利要求2所述的一种基于持续监控的人体动作预测方法，其特征在于，所述步骤16，包括：

步骤160：将低级历史序列V_{hp_1}输入低级别时空卷积模块1，输出F_{hp_11}；F_{hp_11}代表和低级历史序列V_{hp_1}对应的低级别时空卷积模块1的输出结果；

步骤161：将中级历史序列V_{hp_2}输入中级别时空卷积模块1，输出F_{hp_12}；F_{hp_12}代表和中级历史序列V_{hp_2}对应的中级别时空卷积模块1的输出结果；

步骤162：将高级历史序列V_{hp_3}输入高级别时空卷积模块1，输出F_{hp_13}；F_{hp_13}代表和高级历史序列V_{hp_3}对应的高级别时空卷积模块1的输出结果；

步骤163：将F_{hp_11}、F_{hp_12}、F_{hp_13}输入融合模块1，输出更新后的低级别人体骨架中所有关键点的特征、更新后的中级别人体骨架中所有关键点的特征、更新后的高级别人体骨架中所有关键点的特征；

步骤164：通过H₁₁、H₁₂和H₁₃，确定生成对应的历史融合特征。

4.如权利要求3所述的一种基于持续监控的人体动作预测方法，其特征在于，所述步骤163，还包括：

步骤A1：将F_{hp_11}输入低级别卷积层1，输出G₁₁；G₁₁代表和低级历史序列V_{hp_1}对应的低级别卷积层1的输出结果；

步骤A2：将G₁₁输入低级别线性层1，输出为F₁₁；

F₁₁表示提取的低级别人体骨架中所有关键点的特征；

表示提取的低级别人体骨架中第i个关键点的特征，

表示提取的低级别人体骨架中第j个关键点的特征；

步骤A3：针对低级别人体骨架中的第i个关键点，低级别聚集相关特征层1把剩余M-1个关键点的特征聚合到第i个关键点上，然后经过低级别聚集相关特征层1的3层全连接层，确定对应的关键点列向量；

其中，[,]表示按照通道连接函数，f₁₁()表示低级别聚集相关特征层1的3层全连接层函数，r_{11_i}为1个关于第i个关键点的列向量，i＝1,2,…,M，M代表关键点的总个数；

步骤A4：对低级别人体骨架中所有关键点都执行步骤A3，获取关于关键点的二维张量，R₁₁的公式表达如下：

R₁₁＝(r_{11_1},...,r_{11_i},...,r_{11_M})，i∈[1,M]，其中，R₁₁是由M个列向量组成的二维张量；

步骤A5：将R₁₁输入低级别更新特征层1，输出关键点的特征H₁₁，低级别更新特征层1用来更新特征，低级别更新特征层1由3层全连接层构成，更新特征的公式表达如下：

H₁₁＝g₁₁([F₁₁,R₁₁])

其中，[,]表示按照通道连接函数，g₁₁()表示关于低级别更新特征层得到3层全连接层函数，H₁₁为更新后的低级别人体骨架中所有关键点的特征；

步骤A6：将F_{hp_12}输入中级别卷积层1，输出G₁₂；G₁₂代表和中级历史序列V_{hp_2}对应的中级别卷积层1的输出结果；

步骤A7：将G₁₂输入中级别线性层1，输出为F₁₂；

F₁₂表示提取的中级别人体骨架中所有关键点的特征；

表示提取的中级别人体骨架中第i个关键点的特征，

表示提取的中级别人体骨架中第j个关键点的特征；

步骤A8：针对中级别人体骨架中的第i个关键点，中级别聚集相关特征层1把剩余M-1个关键点的特征聚合到第i个关键点上，然后经过中级别聚集相关特征层1的3层全连接层，确定对应的关键点列向量；

其中，[,]表示按照通道连接函数，f₁₂()表示中级别聚集相关特征层1的3层全连接层函数，r_{12_i}为1个关于第i个关键点的列向量，i＝1,2,…,M，M代表关键点的总个数；

步骤A9：对中级别人体骨架中所有关键点都执行步骤A8，获取关于中级别人体骨架关键点的二维张量，R₁₂的公式表达如下：

R₁₂＝(r_{12_1},...,r_{12_i},...,r_{12_M})，i∈[1,M]，其中，R₁₂是由M个列向量组成的二维张量；

步骤A10：将R₁₂输入中级别更新特征层1，输出关键点的特征H₁₂，中级别更新特征层1用来更新特征，中级别更新特征层1由3层全连接层构成，更新特征的公式表达如下：

H₁₂＝g₁₂([F₁₂,R₁₂])

其中，[,]表示按照通道连接函数，g₁₂()表示关于低级别更新特征层得到3层全连接层函数，H₁₂为更新后的低级别人体骨架中所有关键点的特征；

步骤A11：将F_{hp_12}输入中级别卷积层1，输出G₁₂；G₁₂代表和中级历史序列V_{hp_2}对应的中级别卷积层1的输出结果；

步骤A12：将G₁₂输入中级别线性层1，输出为F₁₂；

F₁₂表示提取的中级别人体骨架中所有关键点的特征；

表示提取的中级别人体骨架中第i个关键点的特征，

表示提取的中级别人体骨架中第j个关键点的特征；

步骤A13：针对中级别人体骨架中的第i个关键点，中级别聚集相关特征层1把剩余M-1个关键点的特征聚合到第i个关键点上，然后经过中级别聚集相关特征层1的3层全连接层，确定对应的关键点列向量；

步骤A14：对中级别人体骨架中所有关键点都执行步骤A8，获取关于中级别人体骨架关键点的二维张量，R₁₂的公式表达如下：

R₁₂＝(r_{12_1},...,r_{12_i},...,r_{12_M})，i∈[1,M]，

其中，R₁₂是由M个列向量组成的二维张量；

步骤A15：将R₁₂输入中级别更新特征层1，输出关键点的特征H₁₂，中级别更新特征层1用来更新特征，中级别更新特征层1由3层全连接层构成，更新特征的公式表达如下：

H₁₂＝g₁₂([F₁₂,R₁₂])

其中，[,]表示按照通道连接函数，g₁₂()表示关于中级别更新特征层得到3层全连接层函数，H₁₂为更新后的中级别人体骨架中所有关键点的特征；

步骤A16：将F_{hp_13}输入高级别卷积层1，输出G₁₃；G₁₃代表和高级历史序列V_{hp_3}对应的高级别卷积层1的输出结果；

步骤A17：将G₁₃输入高级别线性层1，输出为F₁₃；

F₁₃表示提取的高级别人体骨架中所有关键点的特征；

表示提取的高级别人体骨架中第i个关键点的特征，

表示提取的高级别人体骨架中第j个关键点的特征；

步骤A18：针对高级别人体骨架中的第i个关键点，高级别聚集相关特征层1把剩余M-1个关键点的特征聚合到第i个关键点上，然后经过高级别聚集相关特征层1的3层全连接层，确定对应的关键点列向量；

其中，[,]表示按照通道连接函数，f₁₃()表示高级别聚集相关特征层1的3层全连接层函数，r_{13_i}为1个关于第i个关键点的列向量，i＝1,2,…,M，M代表关键点的总个数；

步骤A19：对高级别人体骨架中所有关键点都执行步骤A8，获取关于高级别人体骨架关键点的二维张量，R₁₃的公式表达如下：

R₁₃＝(r_{13_1},...,r_{13_i},...,r_{13_M})，i∈[1,M]，

其中，R₁₃是由M个列向量组成的二维张量；

步骤A15：将R₁₃输入高级别更新特征层1，输出关键点的特征H₁₃，高级别更新特征层1用来更新特征，高级别更新特征层1由3层全连接层构成，更新特征的公式表达如下：

H₁₃＝g₁₃([F₁₃,R₁₃])

其中，[,]表示按照通道连接函数，g₁₃()表示关于高级别更新特征层得到3层全连接层函数，H₁₃为更新后的中级别人体骨架中所有关键点的特征。

5.如权利要求3所述的一种基于持续监控的人体动作预测方法，其特征在于，所述步骤164，包括：

步骤S10：将H₁₁和H₁₂输入低级别特征融合层1，输出S_{hp_11}；所述步骤S10包括：

在所述低级别特征融合层1中，H₁₁和H₁₂先经过1个softmax函数，其公式表达如下：

其中，T表示转置，A₁₂表示连接权重矩阵，H₁₁为更新后的低级别人体骨架中所有关键点的特征，H₁₂为更新后的中级别人体骨架中所有关键点的特征，softmax函数用来将输入向量的每一个元素的值归一化至(0,1)之间，每一个元素的计算公式如下：

其中，e表示自然底数，K表示输入向量包含的元素数目，a_l表示输入向量的第l个元素，a_k表示输入向量的第k个元素，k＝1,2,…,K，S_l表示输入向量的第l个元素的值归一化后的结；

步骤S11：将H₁₂融合至H₁₁中，其公式表达如下：

S_{hp_11}＝A₁₂·H₁₂*ω+H₁₁

其中，S_{hp_11}表示H₁₂和H₁₁融合后的特征，也是低级别特征融合层1的输出，ω表示权重；

步骤S12：将所述H₁₁、H₁₂和H₁₃输入中级别特征融合层1，输出为S_{hp_12}；其中，在中级别特征融合层1中，H₁₁和H₁₂先经过1个softmax函数，其公式表达如下：

其中，T表示转置，A₂₁表示连接权重；

接着，H₁₃和H₁₂经过一个softmax函数，其公式表达如下：

其中，T表示转置，A₂₃表示连接权重，H₁₃为更新后的高级别人体骨架中所有关键点的特征；

接着，将H₁₁和H₁₃融合至H₁₂中，其公式表达如下：

S_{hp_12}＝(A₂₁·H₁₁+A₂₃·H₁₃)*θ+H₁₂，

其中，S_{hp_12}表示H₁₁、H₁₂和H₁₃融合后的特征，也是中级别特征融合层1的输出，θ表示权重；

步骤S13：将H₁₃和H₁₂输入高级别特征融合层1，输出为S_{hp_13}；其中，在高级别特征融合层1中，H₁₃和H₁₂先经过1个softmax函数，其公式表达如下：

其中，T表示转置，A₃₂表示连接权重矩阵，

接着，将H₁₂融合至H₁₃中，其公式表达如下：

S_{hp_13}＝A₃₂·H₁₂*γ+H₁₃，

其中，S_{hp_13}表示H₁₂和H₁₃融合后的特征，也是高级别特征融合层1的输出，γ表示权重；

步骤S14：将所述S_{hp_11}输入低级别时空卷积模块2，输出F_{hp_21}；其中，所述低级别时空卷积模块2包含1个空间图卷积层和1个时间卷积层；所述空间图卷积层有128个卷积核，每个卷积核大小为1×1；所述时间卷积层有64个卷积核，每个卷积核的大小为5×1；

步骤S15：将所述S_{hp_12}输入中级别时空卷积模块2，输出F_{hp_22}；其中，所述中级别时空卷积模块2的结构与低级别时空卷积模块2的结构一致，其输入为S_{hp_12}，输出为F_{hp_22}；高级别时空卷积模块2的结构与低级别时空卷积模块2的结构一致，其输入为S_{hp_13}，输出为F_{hp_23}；

步骤S16：将S_{hp_21}输入低级别时空卷积模块3，输出S_{hp_31}；其中，所述低级别时空卷积模块3包含1个空间图卷积层和1个时间卷积层；所述空间图卷积层有256个卷积核，每个卷积核大小为1×1；所述时间卷积层有128个卷积核，每个卷积核的大小为5×1；

步骤S17：将S_{hp_22}输入中级别时空卷积模块3，输出S_{hp_32}；其中，所述中级别时空卷积模块3的结构与低级别时空卷积模块3的结构一致；

步骤S18：将S_{hp_23}输入中级别时空卷积模块3，输出S_{hp_33}；其中，所述高级别时空卷积模块3的结构与低级别时空卷积模块3的结构一致；

步骤S19：将S_{hp_31}输入低级别时空卷积模块4，输出S_{hp_41}；其中，所述低级别时空卷积模块4包含1个空间图卷积层和1个时间卷积层。空间图卷积层有512个卷积核，每个卷积核大小为1×1；时间卷积层有256个卷积核，每个卷积核的大小为5×1；

步骤S20：将S_{hp_32}输入中级别时空卷积模块4，输出S_{hp_42}；其中，所述中级别时空卷积模块4的结构与低级别时空卷积模块4的结构一致；

步骤S21：将S_{hp_33}输入高级别时空卷积模块4，输出S_{hp_43}；其中，所述高级别时空卷积模块4的结构与低级别时空卷积模块3的结构一致；

步骤S22：将S_{hp_41}、S_{hp_42}和S_{hp_43}输入预设的特征融合模块，输出S_hp；

步骤S23：特征融合模块对S_{hp_42}进行采样，获取

并对

赋予权重β₁；对S_{hp_43}进行5次上采样，得到

并对

赋予权重β₂；将S_{hp_41}、

和

相加，S_hp的表达式如下：

其中，β₁和β₂分别对应

和

的权重；

步骤S24：将S_hp、S_hv和S_ha输入特征级联模块的输入，输出为H_history；其中，H_history由S_hp、S_hv和S_ha按通道拼接所得，H_history代表历史运动特征；

步骤S25：将未来序列V_future输入运动特征提取模块，获取未来运动特征H_future。

6.如权利要求1所述的一种基于持续监控的人体动作预测方法，其特征在于，所述步骤2，包括：

步骤21：将历史运动特征和未来运动特征相加，获取联合运动特征；

H＝H_future+H_history

其中，H表示联合运动特征；

步骤22：将联合运动特征H、人体动作序列样本V中的第T_history-2帧人体骨架

第T_history-1帧人体骨架

和第T_history帧人体骨架

输入预设的循环神经网络，计算待预测序列；其中，

所述步骤22还包括：

步骤220：将人体动作序列样本V的第T_history-1帧人体骨架

和第T_history帧人体骨架

输入预设的循环神经网络，计算人体骨架的速度S₀：

其中，S₀表示人体动作序列样本V的第T_history帧人体骨架的速度；

步骤221：将人体动作序列样本V中的第T_history-2帧人体骨架

第T_history-1帧人体骨架

和第T_history帧人体骨架

传输至加速度计算模块，计算人体骨架的加速度：

其中，C₀表示人体动作序列样本V的第T_history帧人体骨架的加速度；

步骤222：将人体骨架的速度S₀、加速度C₀和第T_history帧人体骨架

按照通道连接，确定连接结果I₀，并将连接结果I₀和联合运动特征H传输至门控循环单元GRU模块，输出B₀和H₀；

步骤223：将B₀传输至线性层，输出F₀，F₀的计算方式如下：

其中，W₀是线性层的权重，

是线性层的偏置向量；

步骤224：将线性层的输出F₀和人体动作序列样本V中第T_history帧人体骨架

相加，得到人体动作序列样本V的第T_history+1帧人体骨架的预测结果

步骤225：将人体动作序列样本V的第T_history+1帧人体骨架的预测结果

人体动作序列样本V的第T_history帧人体骨架

第T_history-1帧人体骨架

和第1个循环中GRU的其中一个输出H₀输入第二个循环，输出为人体动作序列样本V的第T_history+2帧人体骨架的预测结果

步骤23：对人体动作序列样本V的人体骨架进行递增并重复步骤22，确定待预测序列：

p∈[T_history+1,T_history+T_predict]，

其中，

为计算所得的待预测序列的第p帧骨架的矩阵表示；

步骤24：通过人体动作序列样本、运动特征提取模块和动作预测模块，构造双流动作预测网络；其中，

所述双流动作预测网络的损失函数L₁为：

其中，|| ||₁表示1范数，

是第n个预测序列的真实值，

是动作预测模块的输出，

代表动作预测模块输出的第n个预测序列样本。

7.如权利要求1所述的一种基于持续监控的人体动作预测方法，其特征在于，所述步骤4，包括：

步骤40：提取经过训练的运动特征提取模块的历史运动特征H_history，将所述历史运动特征H_history传输至分类模块的线性层1，输出结果Q₁；

其中，W₁是线性层1的权重，

是线性层1的偏置向量，

是relu激活函数，relu代表线性整流函数，

x是relu激活函数的输入，当x大于等于0时，relu激活函数的输出为x，当x小于0时，relu激活函数的输出为0，Q₁代表线性层1的输出结果；

步骤41：将线性层1的输出结果Q₁输入线性层2，输出结果Q₂；

其中，

是relu激活函数，W₂是线性层2的权重，

是线性层2的偏置向量；

步骤42：将线性层1的输出结果Q₁输入线性层2，输出结果Q₂；

其中，W₃是线性层3的权重，

是线性层3的偏置向量，

表示softmax激活函数，Q₃表示输入的历史运动特征属于各个动作类别的概率；

步骤43：选择Q₃中最大的概率值对应的动作类别，将所述动作类别作为分类模块的输出；

步骤44：将历史序列输入训练好的运动特征提取模块，确定历史运动特征样本；

步骤45：将历史运动特征样本输入至分类模块，基于分类模块中预设的损失函数L₂，训练分类模块至收敛；其中，训练分类模块使用的损失函数L₂为：

其中，G是动作类别的总数，A是输入的历史运动特征样本的总数，

是第a个历史运动特征样本的各个动作类别的概率，

代表第g维数据第a个历史运动特征样本的网络输出，I_a是第a个历史运动特征样本的期望输出，其中，I_a的第g维数据定义为：

其中，i_a是第a个历史运动特征样本的标签值。

8.如权利要求1所述的一种基于持续监控的人体动作预测方法，其特征在于，所述自更新动作预测模型，包括运动特征提取模块、分类模块、字典模块和动作预测模块；其中，

所述运动特征提取模块的输入为测试的人体动作序列样本划分的历史序列

输出为测试的人体动作序列样本的历史运动特征

所述分类模块的输入为测试的人体动作序列样本的历史运动特征

输出为动作类别g₁；

所述字典模块的输入为动作类别g₁和测试的人体动作序列样本的历史运动特征

查找未来运动特征

所述查找未来运动特征

包括以下步骤：

步骤81：将测试的人体动作序列样本的历史运动特征

向量化，确定新行向量

其中，

所述

为维度为2560的向量；

步骤82：在字典模块中选择动作类别g₁对应的子字典

对子字典

的第i个键存储的历史运动特征

向量化，将所述历史运动特征

中的所有行向量进行连接，确定新行向量

其中，

所述

为维度为2560的向量；

步骤83：计算人体动作序列样本的历史运动特征与动作类别g₁存储的第i个历史运动特征间的余弦相似度：

其中，·表示点积运算，

表示

的2范数，

表示

的2范数，sim_i代表测试的人体动作序列样本的历史运动特征与动作类别g₁存储的第i个历史运动特征间的余弦相似度；

步骤84：计算动作类别g₁存储的所有历史运动特征与测试的人体动作序列样本的历史运动特征间的相似度，得到{sim₁,...,sim_i,...,sim₂₀₀₀}；

步骤85：查找余弦相似度的最大值sim_j，sim_j＝max{sim₁,...,sim_i,...,sim₂₀₀₀}；其中，

所述sim_j为余弦相似度最大值；

步骤86：在动作类别g₁对应的子字典中查找第j个键

并找到第j个键对应的值

将

存储的未来运动特征

作为查找得到的未来运动特征

9.如权利要求5所述的一种基于持续监控的人体动作预测方法，其特征在于，所述步骤S15和S步骤16之间还包括：

将低级历史序列，中级历史序列和高级历史序列依次传输至对应的时空卷积模块1、融合模块1和时空卷积模块2，输出低级卷积结果F_{hp_21}、中级卷积结果F_{hp_22}和高级卷积结果F_{hp_23}；

步骤S151：将低级卷积结果F_{hp_21}输入融合模块2的低级别卷积层2，输出结果G₂₁，将结果G₂₁输入低级别线性层2，输出结果F₂₁，将结果F₂₁输入低级别聚集相关特征层2，输出结果H₂₁，将结果H₂₁输入低级别特征融合层2，确定结果S_{hp_21}；

步骤S152：将中级卷积结果F_{hp_22}输入融合模块2的中级别卷积层2，输出结果G₂₂，将结果G₂₂输入中级别线性层2，输出结果F₂₂，将结果F₂₂输入中级别聚集相关特征层2，输出结果H₂₂，将结果H₂₂输入中级别特征融合层2，确定结果S_{hp_22}；

步骤S153：将高级卷积结果F_{hp_23}输入融合模块2的高级别卷积层2，输出结果G₂₃，将结果G₂₃输入高级别线性层2，输出结果F₂₃，将结果F₂₃输入高级别聚集相关特征层2，输出结果H₂₃，将结果H₂₃输入高级别特征融合层2，确定结果S_{hp_23}。

10.如权利要求1所述的一种基于持续监控的人体动作预测方法，其特征在于，所述步骤6，包括：

步骤A1:将测试的人体动作序列样本的历史运动特征

和查找得到的未来运动特征

相加，输入动作预测模块，得到第1次动作预测结果

其公式表达如下：

其中，

为第1次动作预测结果的第p帧骨架的矩阵表达，

为测试的人体动作序列样本V的第51帧人体骨架的预测结果，

为测试的人体动作序列样本V的第p帧人体骨架的预测结果，

为测试的人体动作序列样本V的第75帧人体骨架的预测结果；

步骤A2:获取第1帧人体骨架矩阵中的第1帧人体骨架

通过第1次动作预测结果

中的第1帧人体骨架

与人体动作序列样本中第2帧人体骨架至第T_history帧人体骨架，组成第1次重构的历史序列

将第1次重构的历史序列

输入运动特征提取模块，输出为第1次更新后的历史运动特征

步骤A3:将第1次更新后的历史运动特征

输入分类模块，输出动作类别g₂；

步骤A4:将动作类别g₂和第1次更新后的历史运动特征

输入所述字典模块，返回自更新动作预测模型的字典模块，重复步骤81-86，查找未来运动特征

步骤A5:重复步骤A1，得到第2次动作预测结果

步骤A6:通过第1次动作预测结果

中的第1帧人体骨架，第2次动作预测结果

中的第1帧人体骨架与人体动作序列样本中第3帧人体骨架至第T_history帧人体骨架，组成第2次重构的历史序列

将所述历史序列

输入运动特征提取模块，重复步骤A2-A5至预设的重复次数，基于所述重复次数，确定最终的动作预测结果。