CN112070027A

CN112070027A - 网络训练、动作识别方法、装置、设备及存储介质

Info

Publication number: CN112070027A
Application number: CN202010941108.6A
Authority: CN
Inventors: 徐飞翔; 黄迎松; 白琨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-12-11
Anticipated expiration: 2040-09-09
Also published as: CN112070027B

Abstract

本申请提供了一种网络训练、动作识别方法、装置、设备及计算机可读存储介质；方法包括：利用人体骨骼点序列的第一序列数据集和第一序列数据集中每一第一序列数据对应的视角标签，更新预训练模型的模型参数；基于更新后的预训练模型的模型参数，初始化人体动作识别模型的模型参数；其中，预训练模型和人体动作识别模型具有结构相同的特征提取网络；利用人体骨骼点序列的第二序列数据集和第二序列数据集中的每一第二序列数据对应的动作类别标签，对人体动作识别模型的模型参数进行更新，得到训练后的人体动作识别模型。通过本申请，能够提高人体动作识别模型的动作识别精度，减少模型训练时间，并能减少对强标注数据的依赖，进而减少人工工作量。

Description

网络训练、动作识别方法、装置、设备及存储介质

技术领域

本申请涉及计算机视觉技术，尤其涉及一种网络训练、动作识别方法、装置、设备及存储介质。

背景技术

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等。在人工智能技术的应用中，人体动作识别技术的应用发挥着越来越重要的价值，例如检测目标人物是否摔倒或疾病，健身、体育和舞蹈等的自动教学，理解全身的肢体语言(如机场跑道信号、交警信号等)，增强安保和监控等。

由于人体骨骼关键点对于描述人体姿态，预测人体行为至关重要。因此，通过人体骨骼点序列动作识别技术对人体骨骼点序列数据进行分析，可以对人体动作类别进行判断和识别。相关技术中，由于人体骨骼关键点的可见性受人体本身的姿态及环境因素的影响较大，会导致通过传感器估计出来的人体骨骼点序列存在一定的噪声，对后续的动作识别带来干扰。

发明内容

本申请实施例提供一种网络训练、动作识别方法、装置、设备及计算机可读存储介质，能够提高人体动作识别模型的动作识别精度，减少模型训练时间，并能减少对强标注数据的依赖，进而减少人工工作量。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种网络训练方法，包括：

利用人体骨骼点序列的第一序列数据集和所述第一序列数据集中每一第一序列数据对应的视角标签，更新预训练模型的模型参数；

基于更新后的预训练模型的模型参数，初始化人体动作识别模型的模型参数；其中，所述预训练模型和所述人体动作识别模型具有结构相同的特征提取网络；

利用人体骨骼点序列的第二序列数据集和所述第二序列数据集中的每一第二序列数据对应的动作类别标签，对所述人体动作识别模型的模型参数进行更新，得到训练后的人体动作识别模型。

在一些实施例中，在所述利用人体骨骼点序列的第一序列数据集和所述第一序列数据集中每一第一序列数据对应的视角标签，更新预训练模型的模型参数之前，所述方法还包括：获取利用多个不同视角的摄像头采集的目标多媒体文件，所述目标多媒体文件包括当前场景的彩色图像视频、深度图序列中的至少一项，其中，每一所述摄像头具有唯一的编号；对每一所述摄像头采集的目标多媒体文件进行人体姿态估计，得到人体骨骼点序列的第一序列数据；将所述摄像头的编号确定为所述第一序列数据的视角标签；将每一所述第一序列数据和对应所述第一序列数据的视角标签，加入第一序列数据集。

在一些实施例中，在所述利用人体骨骼点序列的第一序列数据集和所述第一序列数据集中每一第一序列数据对应的视角标签，更新预训练模型的模型参数之前，所述方法还包括：对所述第一序列数据集中的第一序列数据进行聚类，得到聚类结果；针对所述聚类结果的每一聚类分组，将与聚类中心的距离超过特定距离阈值的第一序列数据确定为噪声数据；从所述第一序列数据集中将所述噪声数据去除。

在一些实施例中，所述预训练模型包括特征提取网络和第一预测类别输出层，所述特征提取网络采用时空图卷积网络，所述第一预测类别输出层采用输出数量为第一输出数量的全连接层，其中，所述第一输出数量为所述第一序列数据集中视角标签的类别数。

在一些实施例中，所述预训练模型的模型参数包括第一特征参数和第二特征参数，所述第一特征参数为所述特征提取网络的特征参数，所述第二特征参数为所述第一预测类别输出层的特征参数；所述利用人体骨骼点序列的第一序列数据集和所述第一序列数据集中每一第一序列数据对应的视角标签，更新预训练模型的模型参数，包括：利用所述特征提取网络，基于初始化后的所述第一特征参数，对每一第一序列数据进行特征提取，得到对应第一序列数据的特征向量；基于初始化后的所述第二特征参数，利用所述第一预测类别输出层对所述每一第一序列数据的特征向量进行处理，得到对应第一序列数据的类别概率向量；基于每一第一序列数据的类别概率向量及每一第一序列数据的视角标签，采用交叉熵损失函数计算损失值；当根据所述损失值确定所述交叉熵损失函数收敛时，将当前的第一特征参数确定为训练后的第一特征参数，并将当前的第二特征参数确定为训练后的第二特征参数。

在一些实施例中，所述利用人体骨骼点序列的第一序列数据集和所述第一序列数据集中每一第一序列数据对应的视角标签，更新预训练模型的模型参数，还包括：当根据所述损失值确定所述交叉熵损失函数未收敛时，基于所述交叉熵损失函数，采用指数下降的随机梯度下降算法对所述第一特征参数和所述第二特征参数进行调整；利用所述特征提取网络，基于调整后的所述第一特征参数，对所述每一第一序列数据进行特征提取，得到对应第一序列数据的调整后的特征向量；基于调整后的所述第二特征参数，利用所述第一预测类别输出层对所述每一第一序列数据调整后的特征向量进行处理，得到对应第一序列数据的调整后的类别概率向量；基于每一第一序列数据调整后的类别概率向量及每一第一序列数据的视角标签，采用交叉熵损失函数计算调整后的损失值。

在一些实施例中，所述人体动作识别模型包括特征提取网络和第二预测类别输出层；所述人体动作识别模型的模型参数包括第三特征参数和第四特征参数，所述第三特征参数为所述特征提取网络的特征参数，所述第四特征参数为所述第二预测类别输出层的特征参数；所述基于更新后的预训练模型的模型参数，初始化人体动作识别模型的模型参数，包括：采用更新后的预训练模型的模型参数，初始化所述第三特征参数；将输出数量为第二输出数量的全连接层作为所述第二预测类别输出层，其中，所述第二输出数量为所述第二序列数据集中动作类别标签的类别数；对所述第四特征参数进行Xavier初始化。

在一些实施例中，所述利用人体骨骼点序列的第二序列数据集和所述第二序列数据集中的每一第二序列数据对应的动作类别标签，对所述人体动作识别模型的模型参数进行更新，得到训练后的人体动作识别模型，包括：利用所述特征提取网络，基于初始化后的所述第三特征参数，对每一第二序列数据进行特征提取，得到对应第二序列数据的特征向量；基于初始化后的所述第四特征参数，利用所述第二预测类别输出层对所述每一第二序列数据的特征向量进行处理，得到对应第二序列数据的类别概率向量；基于每一第二序列数据的类别概率向量及每一第二序列数据的动作类别标签，采用交叉熵损失函数计算损失值；当根据所述损失值确定所述交叉熵损失函数收敛时，将当前的第三特征参数确定为训练后的第三特征参数，并将当前的第四特征参数确定为训练后的第四特征参数。

在一些实施例中，所述利用人体骨骼点序列的第二序列数据集和所述第二序列数据集中的每一第二序列数据对应的动作类别标签，对所述人体动作识别模型的模型参数进行更新，得到训练后的人体动作识别模型，还包括：当根据所述损失值确定所述交叉熵损失函数未收敛时，基于所述交叉熵损失函数，采用指数下降的随机梯度下降算法对所述第三特征参数和所述第四特征参数进行调整；利用所述特征提取网络，基于调整后的所述第三特征参数，对所述每一第二序列数据进行特征提取，得到对应第二序列数据的调整后的特征向量；基于调整后的所述第四特征参数，利用所述第二预测类别输出层对所述每一第二序列数据调整后的特征向量进行处理，得到对应第二序列数据的调整后的类别概率向量；基于每一第二序列数据调整后的类别概率向量及每一第二序列数据的动作类别标签，采用交叉熵损失函数计算调整后的损失值。

本申请实施例提供一种动作识别方法，包括：

对输入的视频进行人体姿态估计，得到人体骨骼点序列数据，或者，获得输入的人体骨骼点序列数据；

利用本申请实施例提供的网络训练方法训练得到的人体动作识别模型，对所述人体骨骼点序列数据进行识别，得到所述人体骨骼点序列数据对应的动作类别。

本申请实施例提供一种网络训练装置，包括：

第一更新模块，用于利用人体骨骼点序列的第一序列数据集和所述第一序列数据集中每一第一序列数据对应的视角标签，更新预训练模型的模型参数；

初始化模块，用于基于更新后的预训练模型的模型参数，初始化人体动作识别模型的模型参数；其中，所述预训练模型和所述人体动作识别模型具有结构相同的特征提取网络；

第二更新模块，用于利用人体骨骼点序列的第二序列数据集和所述第二序列数据集中的每一第二序列数据对应的动作类别标签，对所述人体动作识别模型的模型参数进行更新，得到训练后的人体动作识别模型。

在一些实施例中，还包括：第一获取模块，用于获取利用多个不同视角的摄像头采集的目标多媒体文件，所述目标多媒体文件包括当前场景的彩色图像视频、深度图序列中的至少一项，其中，每一所述摄像头具有唯一的编号；估计模块，用于对每一所述摄像头采集的目标多媒体文件进行人体姿态估计，得到人体骨骼点序列的第一序列数据；第一确定模块，用于将所述摄像头的编号确定为所述第一序列数据的视角标签；加入模块，用于将每一所述第一序列数据和对应所述第一序列数据的视角标签，加入第一序列数据集。

在一些实施例中，还包括：聚类模块，用于对所述第一序列数据集中的第一序列数据进行聚类，得到聚类结果；第二确定模块，用于针对所述聚类结果的每一聚类分组，将与聚类中心的距离超过特定距离阈值的第一序列数据确定为噪声数据；去除模块，用于从所述第一序列数据集中将所述噪声数据去除。

在一些实施例中，所述预训练模型的模型参数包括第一特征参数和第二特征参数，所述第一特征参数为所述特征提取网络的特征参数，所述第二特征参数为所述第一预测类别输出层的特征参数；

所述第一更新模块还用于：利用所述特征提取网络，基于初始化后的所述第一特征参数，对每一第一序列数据进行特征提取，得到对应第一序列数据的特征向量；基于初始化后的所述第二特征参数，利用所述第一预测类别输出层对所述每一第一序列数据的特征向量进行处理，得到对应第一序列数据的类别概率向量；基于每一第一序列数据的类别概率向量及每一第一序列数据的视角标签，采用交叉熵损失函数计算损失值；当根据所述损失值确定所述交叉熵损失函数收敛时，将当前的第一特征参数确定为训练后的第一特征参数，并将当前的第二特征参数确定为训练后的第二特征参数。

在一些实施例中，所述第一更新模块还用于：当根据所述损失值确定所述交叉熵损失函数未收敛时，基于所述交叉熵损失函数，采用指数下降的随机梯度下降算法对所述第一特征参数和所述第二特征参数进行调整；利用所述特征提取网络，基于调整后的所述第一特征参数，对所述每一第一序列数据进行特征提取，得到对应第一序列数据的调整后的特征向量；基于调整后的所述第二特征参数，利用所述第一预测类别输出层对所述每一第一序列数据调整后的特征向量进行处理，得到对应第一序列数据的调整后的类别概率向量；基于每一第一序列数据调整后的类别概率向量及每一第一序列数据的视角标签，采用交叉熵损失函数计算调整后的损失值。

在一些实施例中，所述人体动作识别模型包括特征提取网络和第二预测类别输出层；所述人体动作识别模型的模型参数包括第三特征参数和第四特征参数，所述第三特征参数为所述特征提取网络的特征参数，所述第四特征参数为所述第二预测类别输出层的特征参数；

所述初始化模块还用于：采用更新后的预训练模型的模型参数，初始化所述第三特征参数；将输出数量为第二输出数量的全连接层作为所述第二预测类别输出层，其中，所述第二输出数量为所述第二序列数据集中动作类别标签的类别数；对所述第四特征参数进行Xavier初始化。

在一些实施例中，所述第二更新模块还用于：利用所述特征提取网络，基于初始化后的所述第三特征参数，对每一第二序列数据进行特征提取，得到对应第二序列数据的特征向量；基于初始化后的所述第四特征参数，利用所述第二预测类别输出层对所述每一第二序列数据的特征向量进行处理，得到对应第二序列数据的类别概率向量；基于每一第二序列数据的类别概率向量及每一第二序列数据的动作类别标签，采用交叉熵损失函数计算损失值；当根据所述损失值确定所述交叉熵损失函数收敛时，将当前的第三特征参数确定为训练后的第三特征参数，并将当前的第四特征参数确定为训练后的第四特征参数。

在一些实施例中，所述第二更新模块还用于：当根据所述损失值确定所述交叉熵损失函数未收敛时，基于所述交叉熵损失函数，采用指数下降的随机梯度下降算法对所述第三特征参数和所述第四特征参数进行调整；利用所述特征提取网络，基于调整后的所述第三特征参数，对所述每一第二序列数据进行特征提取，得到对应第二序列数据的调整后的特征向量；基于调整后的所述第四特征参数，利用所述第二预测类别输出层对所述每一第二序列数据调整后的特征向量进行处理，得到对应第二序列数据的调整后的类别概率向量；基于每一第二序列数据调整后的类别概率向量及每一第二序列数据的动作类别标签，采用交叉熵损失函数计算调整后的损失值。

本申请实施例提供一种动作识别装置，包括：输入模块，用于对输入的视频进行人体姿态估计，得到人体骨骼点序列数据，或者，获得输入的人体骨骼点序列数据；识别模块，用于利用本申请实施例提供的网络训练方法训练得到的人体动作识别模型，对所述人体骨骼点序列数据进行识别，得到所述人体骨骼点序列数据对应的动作类别。

本申请实施例提供一种计算机设备，包括：存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的网络训练方法或动作识别方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的方法。

本申请实施例具有以下有益效果：

首先，在基于更新后的预训练模型的模型参数初始化人体动作识别模型的模型参数后，再对人体动作识别模型的模型参数进行更新，得到的训练后的人体动作识别模型可以具有更好的视角不变性和更好的表征能力，从而可以减少因为自我遮挡或者物体遮挡导致的骨骼点噪声问题，进而能够提高人体动作识别模型的动作识别精度；

其次，基于更新后的预训练模型的模型参数初始化人体动作识别模型的模型参数后，再进行人体动作识别模型训练，模型可以更快收敛，从而可以减少模型训练时间；

最后，由于训练后的人体动作识别模型可以具有更好的视角不变性和更好的表征能力，因而在对人体动作识别模型进行训练时，可以减少对动作类别强标注的第二序列数据集的数据量的依赖，在较小的第二序列数据集上取得更好的模型效果，进而在需要人工对人体骨骼点序列数据进行动作类别标注时，可以减少人工工作量和耗时。

附图说明

图1A是相关技术中基于人体骨骼点序列的动作识别方法的实现流程示意图；

图1B是相关技术中利用时空图卷积网络对人体骨骼点序列数据进行特征提取和分类的实现流程示意图；

图1C为相关技术中无噪声和有噪声情况下的骨骼点对比示意图；

图1D是本申请实施例提供的基于人工智能的人体动作识别系统的一个可选的架构示意图；

图2A是本申请实施例提供的服务器的一个可选的组成结构示意图；

图2B是本申请实施例提供的终端的一个可选的组成结构示意图；

图3是本申请实施例提供的网络训练方法的一个可选的流程示意图；

图4是本申请实施例提供的网络训练方法的一个可选的流程示意图；

图5是本申请实施例提供的网络训练方法的一个可选的流程示意图；

图6是本申请实施例提供的网络训练方法的一个可选的流程示意图；

图7是本申请实施例提供的网络训练方法的一个可选的流程示意图；

图8是本申请实施例提供的网络训练方法的一个可选的流程示意图；

图9是本申请实施例提供的网络训练方法的一个可选的流程示意图；

图10是本申请实施例提供的网络训练方法的一个可选的流程示意图；

图11是本申请实施例提供的动作识别方法的一个可选的流程示意图；

图12A是本申请实施例提供的采集辅助数据集的方法的一个可选的流程示意图；

图12B是本申请实施例提供的对预训练模型进行弱监督预训练的方法的一个可选的流程示意图；

图12C是本申请实施例提供的在目标任务数据集上对人体动作识别模型进行模型训练的方法的一个可选的流程示意图；

图12D是本申请实施例提供的基于弱监督的多视角动作识别框架的一个可选的流程示意图；

图13是在训练数据量缺乏的情况下不同训练方法训练的人体动作识别模型的准确率随时间变化的曲线图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人体骨骼点序列特征提取：人体骨骼点序列特征提取将用三维坐标表示的原始人体骨骼点序列数据转换成一组特征向量，该特征向量可以减少数据冗余，并且提供多种不变性(如平移不变性、旋转/视角不变性、尺度不变性、光照不变性等)，有助于提供对原始数据更为鲁棒的关键性信息描述。

2)人体骨骼点序列动作识别：人体骨骼点序列动作识别通过对输入的人体骨骼点序列数据进行分析，可以对人体骨骼点序列数据的动作类别进行判断和识别。对比传统的图像视频，人体骨骼点序列数据对光照变化更为鲁棒，信息冗余更少，计算量小，是一种理想的动作识别输入模态。

3)多视角动作识别：多视角动作识别在包含有若干不同视角的动作数据上进行数据分析，模型训练，最后在测试数据上进行模型推理。多视角动作识别问题需要模型能够提取视角不变性动作特征向量，减少数据因为视角不同导致的差异性。

4)弱监督学习：弱监督学习可以利用大量带噪声标签或与目标任务无关标签的辅助数据对模型进行训练，以提高模型的表征能力，减少了目标任务对人工标注的数据集的依赖。对辅助数据集的标注可以是通过机器自动生成的，因此不需要人工介入进行数据标注。

5)人体姿态估计：将RGB图像视频，深度图序列或者两种数据的混合体作为输入数据，将输入数据转化成人体骨骼点序列数据的过程称之为人体姿态估计。

相关技术中，基于人体骨骼点序列的动作识别可以采用如图1A所示的流程实现。如图1A所示，首先将人体骨骼点序列数据输入数据预处理模块11进行预处理，预处理可以包括方向对齐、去中心化、归一化等，这些预处理操作可以在一定程度上减少因为不同动作执行人的差异(包括身高差异等)导致的不一致性，从而提高多视角动作识别的准确度；其次，通过时空特征提取器12对预处理完后的人体骨骼点序列数据进行时空特征提取，可以采用长短期记忆(Long Short-Term Memory，LSTM)网络分别组织每一帧的空间特征，构成时空特征信息，也可以采用时空图卷积网络(Spatial Temporal Graph ConvolutionNetworks，ST-GCN)直接对时空信息进行组织；最后，基于监督信号13，利用根据具体的任务数据集设计的类别分类器14对提取的时空特征信息的动作类别进行分类识别。

在人体骨骼点序列动作识别的过程中，人体骨骼点序列的特征提取是其中非常重要的一环。图卷积神经网络由于能够对人体骨骼点序列数据的时空信息进行自然组织，因此适合作为对骨骼点序列数据进行特征提取的工具，其中，时空图卷积网络是图卷积神经网络的主要代表之一。利用时空图卷积网络对人体骨骼点序列数据进行特征提取和分类的过程如图1B所示，输入视频序列21通过人体姿态估计转换成人体骨骼点序列数据，将得到的人体骨骼点序列数据输入时空图卷积网络22中，通过时空图卷积网络22中层叠的图卷积网络层，可以得到输入的人体骨骼点序列数据的特征向量，进一步通过对该特征向量进行动作分类，可以得到该输入视频序列对应的动作类别得分结果，根据该动作类别得分结果可以判定该输入视频序列对应的动作类别为跑步。

在上述基于人体骨骼点序列的动作识别方案中，由于人体动作存在大量的自我遮挡和物体遮挡，导致通过传感器估计出来的人体骨骼点序列数据存在一定的噪声，骨骼点序列上的噪声很容易干扰动作识别模型的正常决策，导致识别错误。如图1C所示，(a)和(b)均为从上45°斜俯视时的人体骨骼点可视化示意图，节点31为骨骼点，线段32为双臂的骨骼点连线，线段33为枝干和双腿的骨骼点连线，其中，(a)为无噪声情况下的骨骼点示意图，可以看到并没有出现严重的骨骼点粘合，易位和失真；(b)为引入了较大噪声的骨骼点示意图，因为双臂部分有大面积的遮挡使得部分骨骼点出现了易位。

针对上述问题，相关技术中提出采用多视角人体骨骼点序列动作识别模型的方案。在相关技术的多视角人体骨骼点序列动作识别模型中，通常都是在考虑如何提取视角不变性特征，这种特征可以使得跨不同视角的样本对动作类别有着足够的区分性。在上述相关技术的多视角人体骨骼点序列动作识别方案中，所用的训练集都是具有人工标注的标签的多视角数据集，为了使得模型达到足够的精确率，通常需要大量的训练数据对模型进行训练，而人工标注多视角动作样本需要耗费大量的人力物力财力，且很难覆盖到各个可能的视角。在此基础上，有一些相关技术尝试通过三维建模的方式构建虚拟的多视角动作样本，扩充多视角训练数据集，以达到充分训练模型、减小过拟合的目的。但是，考虑到生成的虚拟样本的动作很难包含所有可能的动作类别，且生成的样本和现实的实际样本之间有着较大的差异，因此很难在实际中进行应用。此外，还有些相关技术考虑手动设计或者网络学习出视角不变的特征，甚至有些相关技术考虑让网络学习如何自动对齐不同视角的样本，但是这些方法仍然没办法减少因为人体自我遮挡或者物体遮挡导致的人体骨骼点噪声问题。

本申请实施例提供一种网络训练、动作识别方法、装置、设备和计算机可读存储介质，能够减少基于人体骨骼点序列进行动作识别时，由于人体自我遮挡或者物体遮挡导致的人体骨骼点噪声问题，进而减少噪声干扰导致动作识别错误的问题，从而提高人体动作识别的准确率。下面说明本申请实施例提供的网络训练设备和动作识别设备的示例性应用，本申请实施例提供的网络训练设备和动作识别设备均为计算机设备，可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。网络训练设备和动作识别设备可以是同一个设备也可以是不同的设备。下面，将说明网络训练设备实施为服务器、动作识别设备实施为终端时的示例性应用。

参见图1D，图1D是本申请实施例提供的基于人工智能的人体动作识别系统100的一个可选的架构示意图，为实现对输入的任意人体骨骼点序列数据的人体动作识别，终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

服务器200用于：利用人体骨骼点序列的第一序列数据集和第一序列数据集中每一第一序列数据对应的视角标签，更新预训练模型的模型参数；基于更新后的预训练模型的模型参数，初始化人体动作识别模型的模型参数；其中，预训练模型和人体动作识别模型具有结构相同的特征提取网络；利用人体骨骼点序列的第二序列数据集和第二序列数据集中的每一第二序列数据对应的动作类别标签，对人体动作识别模型的模型参数进行更新，得到训练后的人体动作识别模型。终端400用于：获取服务器200训练后的人体动作识别模型；对用户输入的视频进行人体姿态估计，得到人体骨骼点序列数据，或者，获得用户输入的人体骨骼点序列数据；利用训练后的人体动作识别模型，对人体骨骼点序列数据进行识别，得到人体骨骼点序列数据对应的动作类别，在图形界面410(示例性示出了图形界面410-1和图形界面410-2)显示识别出的动作类别。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

参见图2A，图2A是本申请实施例提供的服务器200的结构示意图，图2A所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2A中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的网络训练装置可以采用软件方式实现，图2A示出了存储在存储器250中的网络训练装置255，其可以是程序和插件等形式的软件，包括以下软件模块：第一更新模块2551、初始化模块2552和第二更新模块2553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的网络训练装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的网络训练方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

参见图2B，图2B是本申请实施例提供的终端400的结构示意图，图2B所示的终端400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2B中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的动作识别装置可以采用软件方式实现，图2B示出了存储在存储器450中的动作识别装置455，其可以是程序和插件等形式的软件，包括以下软件模块：输入模块4551和识别模块4552，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的动作识别装置可以采用硬件方式实现，作为示例，本申请实施例提供的动作识别装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的动作识别方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

下面将结合本申请实施例提供的终端的示例性应用和实施，说明本申请实施例提供的网络训练方法。

参见图3，图3是本申请实施例提供的网络训练方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。图3中步骤的执行主体可以是前文的终端，也可以是前文的服务器。

在步骤S101中，利用人体骨骼点序列的第一序列数据集和第一序列数据集中每一第一序列数据对应的视角标签，更新预训练模型的模型参数。

这里，第一序列数据集为预先采集的用于训练预训练模型的人体骨骼点序列数据样本集。在实施时，可以将预先采集的第一序列数据集存储在本地存储器、数据库或远端服务器等，在需要时从本地存储器、数据库或远端服务器等获取存储的第一序列数据集。

第一序列数据为第一序列数据集中的人体骨骼点序列数据。第一序列数据对应的视角标签为预先标注的采集该人体骨骼点序列数据时的采集视角。在实施时，视角可以包括但不限于采集方向、采集装置的位置、采集装置的标识等。例如，可以将采集装置与待采集的人体之间的相对方向作为人体骨骼点序列数据的视角，也可以将采集装置的在三维空间中的位置坐标作为人体骨骼点序列数据的视角，还可以将采集装置的编号作为人体骨骼点序列数据的视角。本领域技术人员可以根据实际情况确定合适的表征视角的方式，这里并不限定。

预训练模型为用于对人体骨骼点序列数据的视角进行识别的神经网络模型，预训练模型的输入为人体骨骼点序列数据，输出为该人体骨骼点序列数据对应的视角。在实施时，预训练模型可以是任意合适的分类模型，本领域技术人员可以根据实际情况确定合适的预训练模型，这里并不限定。

预训练模型的模型参数可以包括模型中各层的参数，包括但不限于各层的权重矩阵、偏置向量等中的一种或多种。在实施时，可以根据预训练模型的具体网络结构确定模型参数，并采用任意合适的算法更新该模型参数。

对预训练模型的模型参数进行更新时可以采用任意合适的算法，例如梯度下降法、共轭梯度法、牛顿算法等。

在一些实施例中，预训练模型可以包括特征提取网络和第一预测类别输出层，特征提取网络可以采用时空图卷积网络，第一预测类别输出层可以采用输出数量为第一输出数量的全连接层，其中，所述第一输出数量为所述第一序列数据集中视角标签的类别数。

在步骤S102中，基于更新后的预训练模型的模型参数，初始化人体动作识别模型的模型参数；其中，预训练模型和人体动作识别模型具有结构相同的特征提取网络。

这里，人体动作识别模型采用的特征提取网络与预训练模型采用的特征提取网络具有相同的网络结构。在实施时，人体动作识别模型和预训练模型采用的特征提取网络可以包括但不限于图卷积神经网络、长短期记忆网络(Long Short-Term Memory，LSTM)、时间卷积网络(Temporal Convolutional Network，TCN)模型等。在一些实施例中，人体动作识别模型和预训练模型采用的特征提取网络可以包括图卷积神经网络中的时空图卷积神经网络。

人体动作识别模型的模型参数可以包括模型中各层的参数，包括但不限于各层的权重矩阵、偏置向量等中的一种或多种。在实施时，可以根据人体动作识别模型的具体网络结构确定模型参数。在对预训练模型的模型参数更新完成后，需要基于更新后的预训练模型的模型参数，对人体动作识别模型的模型参数进行初始化。通过初始化，可以为人体动作识别模型的模型参数确定合适的初始值。在实施时，可以直接将预训练模型中各层更新后的模型参数确定为人体动作识别模型中对应层的模型参数的初始值，也可以对预训练模型中各层更新后的模型参数进行适当调整(例如缩放、偏移等)后，将调整后的模型参数确定为人体动作识别模型中对应层的模型参数。本领域技术人员可以根据实际确定合适的初始化方式，本申请实施例对此并不限定。

在步骤S103中，利用人体骨骼点序列的第二序列数据集和第二序列数据集中的每一第二序列数据对应的动作类别标签，对人体动作识别模型的模型参数进行更新，得到训练后的人体动作识别模型。

这里，第二序列数据集为预先采集的用于训练人体动作识别模型的人体骨骼点序列数据样本集。在实施时，可以将预先采集的第二序列数据集存储在本地存储器、数据库或远端服务器等，在需要时从本地存储器、数据库或远端服务器等获取存储的第二序列数据集。

第二序列数据为第二序列数据集中的人体骨骼点序列数据。第二序列数据对应的动作类别标签为预先标注的该人体骨骼点序列数据对应的动作类别。在实施时，动作类别可以包括但不限于跑步、走路、跳跃、下蹲等。本领域技术人员可以根据实际情况确定合适的人体动作类别的方式，这里并不限定。

人体动作识别模型为用于对人体骨骼点序列数据的动作类别进行识别的神经网络模型，人体动作识别模型的输入为人体骨骼点序列数据，输出为该人体骨骼点序列数据对应的动作类别。在实施时，人体动作识别模型可以是任意合适的分类模型，本领域技术人员可以根据实际情况确定合适的人体动作识别模型，这里并不限定。

对初始化后的人体动作识别模型的模型参数进行更新时可以采用任意合适的算法，例如梯度下降法、共轭梯度法、牛顿算法等。

本申请实施例中，由于预训练模型以视角作为监督信号更新模型参数，可以使得更新后的预训练模型具有更好的视角不变性，进而具有更好的表征能力。这样，首先，在基于更新后的预训练模型的模型参数初始化人体动作识别模型的模型参数后，再对人体动作识别模型的模型参数进行更新，得到的训练后的人体动作识别模型也可以具有更好的视角不变性和更好的表征能力，从而可以减少因为自我遮挡或者物体遮挡导致的骨骼点噪声问题，进而能够提高人体动作识别模型的动作识别精度。其次，基于更新后的预训练模型的模型参数初始化人体动作识别模型的模型参数后，再进行人体动作识别模型训练，模型可以更快收敛，从而可以减少网络训练时间。最后，由于训练后的人体动作识别模型可以具有更好的视角不变性和更好的表征能力，因而在对人体动作识别模型进行训练时，可以减少对动作类别强标注的第二序列数据集的数据量的依赖，在较小的第二序列数据集上取得更好的模型效果，进而在需要人工对人体骨骼点序列数据进行动作类别标注时，可以减少人工工作量和耗时。

在一些实施例中，参见图4，图4是本申请实施例提供的网络训练方法的一个可选的流程示意图，基于图3，在步骤S101之前，还可以执行步骤S104至步骤S107。

步骤S104中，获取利用多个不同视角的摄像头采集的目标多媒体文件，所述目标多媒体文件包括当前场景的彩色图像视频、深度图序列中的至少一项，其中，每一摄像头具有唯一的编号。

这里，可以在当前场景中部署多个不同视角的摄像头，并且给不同的摄像头进行唯一的编号。摄像头可以包括但不限于彩色摄像头、深度摄像头等中的一种或多种，可以采集当前场景的彩色图像视频、深度图序列等。在实施时，部署的摄像头的数量可以较多，摄像头的视角范围可以较大，以对整个场景的所有视角进行覆盖。

步骤S105中，对每一摄像头采集的目标多媒体文件进行人体姿态估计，得到人体骨骼点序列的第一序列数据。

这里，可以将采集的目标多媒体文件(如彩色图像视频、深度图序列或者两种数据的混合等)作为输入数据，通过任意合适的人体姿态估计算法将该输入数据转化成人体骨骼点序列数据。

步骤S106中，将摄像头的编号确定为第一序列数据的视角标签。

步骤S107中，将每一第一序列数据和对应第一序列数据的视角标签，加入第一序列数据集。

本申请实施例中，通过将摄像头的编号确定为第一序列数据的视角标签，这样，由于第一序列数据对应的摄像头的编号可以在获得第一序列数据的过程中自动确定，因此，可以通过计算机对第一序列数据进行自动准确的视角标签标注，不需要不需要任何人工介入。

在一些实施例中，参见图5，图5是本申请实施例提供的网络训练方法的一个可选的流程示意图，基于图3，在步骤S101之前，还可以执行步骤S108至步骤S110。

步骤S108中，对第一序列数据集中的第一序列数据进行聚类，得到聚类结果；

这里，可以采用任意合适的聚类算法对第一序列数据集中的第一序列数据进行聚类，例如K均值聚类、均值漂移聚类、凝聚层次聚类等。

步骤S109中，针对聚类结果的每一聚类分组，将与聚类中心的距离超过特定距离阈值的第一序列数据确定为噪声数据；

步骤S110中，从第一序列数据集中将所述噪声数据去除。

本申请实施例中，在更新预训练模型的模型参数前，对第一序列数据集中的第一序列数据进行聚类，并从第一序列数据集中将每一聚类分组中与聚类中心距离较远的第一序列数据去除。这样，可以减少第一序列数据集中的噪声数据，从而可以进一步提高训练后的人体动作识别模型的表征能力，进而进一步提高了人体动作识别模型的动作识别精度。

在一些实施例中，参见图6，图6是本申请实施例提供的网络训练方法的一个可选的流程示意图，图3示出的步骤S101可以通过步骤S1011至步骤S1014实现，将结合各步骤进行说明。

在步骤S1011中，利用特征提取网络，基于初始化后的第一特征参数，对每一第一序列数据进行特征提取，得到对应第一序列数据的特征向量；

这里，预训练模型可以包括特征提取网络和第一预测类别输出层，特征提取网络可以采用时空图卷积网络。第一特征参数为预训练模型的特征提取网络的特征参数。第一特征参数的初始化可以采用任意合适的初始化方法，包括但不限于标准初始化、Xavier初始化等。

在步骤S1012中，基于初始化后的第二特征参数，利用第一预测类别输出层对每一第一序列数据的特征向量进行处理，得到对应第一序列数据的类别概率向量；

这里，类别概率向量可以表征第一序列数据在各个视角类别上可能属于该类别的概率或置信度。第一预测类别输出层可以采用输出数量为第一输出数量的全连接层或其他任意合适的分类器(例如决策树、贝叶斯分类器、支持向量机等)，其中，第一输出数量为第一序列数据集中视角标签的类别数。通过第一预测类别输出层可以对每一第一序列数据的特征向量进行视角分类，得到每一第一序列数据的类别概率向量。

第二特征参数的初始化可以采用任意合适的初始化方法，包括但不限于标准初始化、Xavier初始化等。

在步骤S1013中，基于每一第一序列数据的类别概率向量及每一第一序列数据的视角标签，采用交叉熵损失函数计算损失值；

这里，损失值可以为表征每一第一序列数据的预测视角与视角标签之间的不一致程度的值。可以根据每一第一序列数据的类别概率向量，将类别概率向量中置信度最高的类别确定为当前针对该第一序列数据的预测视角，利用每一第一序列数据的预测视角和对应预测视角的视角标签，采用交叉熵损失函数，可以计算出当前的损失值。

在步骤S1014中，当根据损失值确定交叉熵损失函数收敛时，将当前的第一特征参数确定为训练后的第一特征参数，并将当前的第二特征参数确定为训练后的第二特征参数。

这里，当损失值不断趋于一个常数时，可以确定交叉熵损失函数收敛。

本申请实施例中，在更新预训练模型的模型参数时，采用交叉熵损失函数作为损失函数，由于交叉熵损失函数的收敛速度较快，从而可以加快模型参数的更新速率，减少预训练模型的训练时长。

在一些实施例中，参见图7，图7是本申请实施例提供的方法的一个可选的流程示意图，基于图6，在步骤S1014之后，还可以执行步骤S1015至步骤S1018实现，将结合各步骤进行说明。

步骤S1015中，当根据损失值确定交叉熵损失函数未收敛时，基于交叉熵损失函数，采用指数下降的随机梯度下降算法对第一特征参数和第二特征参数进行调整；

这里，采用随机梯度下降法最小化损失函数的方式更新第一特征参数和第二特征参数。第一特征参数和第二特征参数更新完之后，预训练模型可以学习到对不同动作类别有足够区分度的特征，这些特征能够表征不同的动作之间的差异性。

步骤S1016中，利用特征提取网络，基于调整后的第一特征参数，对每一第一序列数据进行特征提取，得到对应第一序列数据的调整后的特征向量；

步骤S1017中，基于调整后的第二特征参数，利用第一预测类别输出层对每一第一序列数据调整后的特征向量进行处理，得到对应第一序列数据的调整后的类别概率向量；

步骤S1018中，基于每一第一序列数据调整后的类别概率向量及每一第一序列数据的视角标签，采用交叉熵损失函数计算调整后的损失值。

这里，步骤S1016至S1018对应于前述步骤S1011至S1013，在实施时可以参照前述步骤S1011至S1013的实施方式，这里不再赘述。

本申请实施例中，采用指数下降的随机梯度下降算法对第一特征参数和第二特征参数进行调整，由于随机梯度下降算法可以较快地将参数迭代到最优解，因此，可以有效提高模型参数的更新速率，减少预训练模型的训练时长。

在一些实施例中，参见图8，图8是本申请实施例提供的网络训练方法的一个可选的流程示意图，图3示出的步骤S102可以通过步骤S1021至步骤S1023实现，将结合各步骤进行说明。

在步骤S1021中，采用更新后的预训练模型的模型参数，初始化第三特征参数；

这里，人体动作识别模型包括特征提取网络和第二预测类别输出层；所人体动作识别模型的模型参数第三特征参数和第四特征参数，第三特征参数为特征提取网络的特征参数，第四特征参数为第二预测类别输出层的特征参数。

由于预训练模型和人体动作识别模型具有结构相同的特征提取网络，因此，在初始化第三特征参数时，可以直接将预训练模型中特征提取网络的特征参数作为第三特征参数的初始值。

在步骤S1022中，将输出数量为第二输出数量的全连接层作为所述第二预测类别输出层，其中，所述第二输出数量为所述第二序列数据集中动作类别标签的类别数；

在步骤S1023中，对所述第四特征参数进行Xavier初始化。

这里，对第四特征参数进行Xavier初始化，可以确保有足够良好的初始化参数组合。

本申请实施例中，采用更新后的预训练模型的模型参数，初始化人体动作识别模型的特征提取网络的特征参数，由于预训练模型以视角作为监督信号更新模型参数，可以使得更新后的预训练模型的特征提取网络具有更好的视角不变性，进而具有更好的表征能力。这样，初始化后的人体动作识别模型的特征提取网络也可以具有更好的视角不变性和更好的表征能力，从而可以提取到人体骨骼点序列数据的视角不变特征，减少因为自我遮挡或者物体遮挡导致的骨骼点噪声问题，进而能够提高训练后的人体动作识别模型的动作识别精度。此外，通过对人体动作识别模型的第二预测类别输出层的特征参数进行Xavier初始化，还可以确保第二预测类别输出层的特征参数有足够良好的初始化参数组合，从而进一步加快模型收敛，减少网络训练时间。

在一些实施例中，参见图9，图9是本申请实施例提供的网络训练方法的一个可选的流程示意图，图8示出的步骤S103可以通过步骤S1031至步骤S1034实现，将结合各步骤进行说明。

在步骤S1031中，利用特征提取网络，基于初始化后的第三特征参数，对每一第二序列数据进行特征提取，得到对应第二序列数据的特征向量；

在步骤S1032中，基于初始化后的第四特征参数，利用第二预测类别输出层对每一第二序列数据的特征向量进行处理，得到对应第二序列数据的类别概率向量；

在步骤S1033中，基于每一第二序列数据的类别概率向量及每一第二序列数据的动作类别标签，采用交叉熵损失函数计算损失值；

在步骤S1034中，当根据损失值确定交叉熵损失函数收敛时，将当前的第三特征参数确定为训练后的第三特征参数，并将当前的第四特征参数确定为训练后的第四特征参数。

这里，步骤S1031至S1034与前述步骤S1011至S1014的描述是类似的，在实施时可以参照前述步骤S1011至S1014的实施方式。

本申请实施例中，在更新人体动作识别模型的模型参数时，采用交叉熵损失函数作为损失函数，由于交叉熵损失函数的收敛速度较快，从而可以加快模型参数的更新速率，减少人体动作识别模型的训练时长。

在一些实施例中，参见图10，图10是本申请实施例提供的网络训练方法的一个可选的流程示意图，基于图9，在步骤S1034之后，还可以执行步骤S1035至步骤S1038实现，将结合各步骤进行说明。

步骤S1035中，当根据损失值确定交叉熵损失函数未收敛时，基于交叉熵损失函数，采用指数下降的随机梯度下降算法对第三特征参数和第四特征参数进行调整；

步骤S1036中，利用特征提取网络，基于调整后的第三特征参数，对每一第二序列数据进行特征提取，得到对应第二序列数据的调整后的特征向量；

步骤S1037中，基于调整后的第四特征参数，利用第二预测类别输出层对每一第二序列数据调整后的特征向量进行处理，得到对应第二序列数据的调整后的类别概率向量；

步骤S1038中，基于每一第二序列数据调整后的类别概率向量及每一第二序列数据的动作类别标签，采用交叉熵损失函数计算调整后的损失值。

这里，步骤S1035至S1038与前述步骤S1015至S1018的描述是类似的，在实施时可以参照前述步骤S1015至S1018的实施方式。

本申请实施例中，采用指数下降的随机梯度下降算法对第三特征参数和第四特征参数进行调整，由于随机梯度下降算法可以较快地将参数迭代到最优解，因此，可以有效提高模型参数的更新速率，减少人体动作识别模型的训练时长。

参见图11，图11是本申请实施例提供的动作识别方法的一个可选的流程示意图，将结合图11示出的步骤进行说明。图11中步骤的执行主体可以是前文的终端，也可以是前文的服务器。

在步骤S201中，对输入的视频进行人体姿态估计，得到人体骨骼点序列数据，或者，获得输入的人体骨骼点序列数据。

这里，输入的视频可以包括但不限于彩色图像视频、深度图序列等中的一种或多种。可以通过任意合适的人体姿态估计算法将输入的视频转化成人体骨骼点序列数据。

在步骤S202中，利用本申请实施例中的网络训练方法训练得到的人体动作识别模型，对人体骨骼点序列数据进行识别，得到人体骨骼点序列数据对应的动作类别。

这里，可以将人体骨骼点序列数据输入训练后的人体动作识别模型的特征提取网络，得到对应的视角不变特征，利用得到的视角不变特征进行动作识别，可以得到人体骨骼点序列数据对应的动作类别。视角不变特征是与视角无关的，在各个视角下均一致的特征。

本申请实施例中，利用本申请实施例中的网络训练方法训练得到的人体动作识别模型，对所述人体骨骼点序列数据进行识别，由于得到的人体动作识别模型具有较好的视角不变性，通过该人体动作识别模型的特征提取网络，可以提取到人体骨骼点序列数据的视角不变特征，从而可以减少进行人体动作识别时由于人体自我遮挡或者物体遮挡导致的骨骼点噪声问题，进而能够提高动作识别的准确率，并且对任意视角的视频或人体骨骼点序列数据进行都能具有较高的识别准确率，从而对输入数据的依赖更小，适用范围更广。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例提供一种网络训练方法，该方法的整体方案可分为采集辅助数据、弱监督模型预训练、目标任务模型训练三个步骤，下面分别对这三个步骤进行说明。

1、采集辅助数据集。

在该步骤中，对弱监督预训练需要用到的辅助数据集进行采集。这里辅助数据集可以为前文所述的第一序列数据集。

参见图12A，图12A是本申请实施例提供的采集辅助数据集的方法的一个可选的流程示意图，将结合图12A示出的步骤进行说明。

在步骤S1211中，用户在适当场景中部署多个不同视角的摄像头，尽量部署数量越多，视角范围越大的摄像头，以对整个场景的所有视角进行覆盖。

在步骤S1212中，用户给不同的摄像头进行唯一的编号。

在步骤S1213中，服务器或终端对每个摄像头采集到的视频进行人体姿态估计得到人体骨骼点序列数据。

这里采集到的视频可以是RGB图像视频、深度图序列等中的一种或多种。

在步骤S1214中，服务器或终端对每一人体骨骼点序列数据进行摄像头编号的标注，将每一人体骨骼点序列数据对应的摄像头的编号作为该人体骨骼点序列数据的视角标签。

这里，标注过程可以完全由计算机自动完成，不需要人工介入进行标注。这里的标注可以称为摄像机视角编号。

标注过程完成后即可得到辅助数据集，辅助数据集中样本的标注是自动生成的摄像机视角编号。

2、对预训练模型进行弱监督预训练。

在该步骤中，利用采集的辅助数据集，对预训练模型进行预训练。

参见图12B，图12B是本申请实施例提供的对预训练模型进行弱监督预训练的方法的一个可选的流程示意图，将结合图12B示出的步骤进行说明。图12B中步骤的执行主体可以是前文的终端，也可以是前文的服务器。

在步骤S1221中，初始化预训练模型的模型参数。

这里，可以选择时空图卷积网络作为基础模型，根据辅助数据集中不同视角的摄像头的数量N_v，添加输出数量为N_v的全连接层作为模型最后的预测类别输出层。同时，对模型的每个参数进行Xavier初始化以确保有足够良好的初始化参数组合。

在步骤S1222中，在辅助数据集上对预训练模型进行弱监督预训练。

这里，将在辅助数据集中样本的摄像机视角编号作为弱监督标签对预训练模型进行预训练，其中，采用交叉熵损失作为模型训练的损失函数，优化器采用指数下降的随机梯度下降算法对预训练模型的参数进行更新，直到预训练模型收敛为止。

在步骤S1223中，得到弱监督下的预训练模型。

这里，当预训练模型收敛时，保留预训练模型的网络结构和权值参数，得到最终的预训练模型。

3、在目标任务数据集上对人体动作识别模型进行模型训练。

在该步骤中，利用存在动作类别标签的目标任务数据集，对人体动作识别模型进行目标任务(也即是多视角动作识别任务)的模型训练。这里目标任务数据集可以为前文所述的第二序列数据集。

参见图12C，图12C是本申请实施例提供的在目标任务数据集上对人体动作识别模型进行模型训练的方法的一个可选的流程示意图，将结合图12C示出的步骤进行说明。图12C中步骤的执行主体可以是前文的终端，也可以是前文的服务器。

在步骤S1231中，根据目标任务数据集的样本类别数，更换预训练模型的输出全连接层。

这里，根据目标任务数据集上的动作类别的数量N_c，将预训练模型中的输出全连接层从输出N_v替换成输出N_c。

在步骤S1232中，获得可以适配目标任务的新模型。

这里，将输出全连接层后的更换预训练模型作为适配目标任务的新模型，新模型即为人体动作识别模型。

在步骤S1233中，利用预训练模型对人体动作识别模型进行初始化。

这里，利用在步骤对预训练模型进行弱监督预训练中得到的预训练模型参数对人体动作识别模型中除输出全连接层之外的其他部分进行赋值，完成人体动作识别模型中除输出全连接层之外的其他部分的参数初始化；采用Xavier初始化对人体动作识别模型的输出全连接层进行参数初始化。

在步骤S1234中，在目标训练集上对人体动作识别模型进行训练。

这里，利用目标任务数据集上的动作类别标签作为监督信号，采用指数下降的随机梯度下降算法作为优化器，交叉熵损失作为模型的损失函数对人体动作识别模型进行训练，直到模型收敛为止。

当人体动作识别模型收敛时，保留模型的网络结构和模型参数，得到最终的训练完的模型结果。训练完的人体动作识别模型可以直接用于在动作识别任务相关的生产环境部署。在模型应用中，输入数据可以为任意视角的人体骨骼点序列数据，进行动作识别时，首先通过人体动作识别模型中的特征提取网络提取出视角不变特征，通过输出全连接层对视角不变特征进行分类，并输出分类结果。

本申请实施例提供的网络训练方法，在预训练阶段，通过利用模型在辅助数据集上对样本的摄像机视角编号进行预测，模型能够潜在地学习到人体骨骼点序列的表征(包括人体骨骼点序列的视角不变特征)。在后续的下游其他任务(如动作识别任务)中，只需要更换最后的输出全连接层以达到和任务适配的目的，然后以较小的学习率对模型参数进行优化即可。

参见图12D，图12D为本申请实施例提供的基于弱监督的多视角动作识别框架的一个可选的流程示意图。如图12D所示，该框架包括预训练模型1240和进行目标任务的人体动作识别模型1250，预训练模型1240的人体骨骼点序列特征提取模型1241和进行目标任务的人体动作识别模型1250中的人体骨骼点序列特征提取模型1251结构相同，均可以采用较为流行的ST-GCN模型。对预训练模型进行预训练时，采用辅助数据集1243中的人体骨骼点序列数据1243a作为输入的样本数据，采用摄像头编号分类器1242作为全连接层，采用辅助数据集1243中的摄像头编号1243b作为监督信号。对人体动作识别模型1250进行训练时，采用动作分类器1252作为全连接层，采用目标任务数据集1253中的人体骨骼点序列数据1253a作为输入的样本数据，采用目标任务数据集1253中的动作标签1253b作为监督信号。人体骨骼点序列特征提取模型1251的参数可以直接采用预训练得到的人体骨骼点序列特征提取模型1241的参数作为初始值，这样，以较小的学习率进行模型学习，利用少量的强标注数据即可完成训练。

例如，定义符号

表示辅助数据集，

表示目标任务数据集，其中

X＝{x₁，…，x_m}是特征向量矩阵，

是类别数为L的独热编码的标签向量，m是数据量，d是数据的特征维度。同时，用

表示骨骼点序列特征提取网络，其中θ是特征提取模型的参数，

表示摄像头编号分类器，

表示目标任务分类器。那么，在辅助数据集上进行预训练的过程可以表示为如下公式1-1：

通过随机梯度下降算法对参数θ进行更新之后，用更新后的参数θ去初始化特征提取网络，并更换分类器，用较小的学习率去训练人体动作识别模型，这个过程可以表示为如下公式1-2：

本申请实施例提供的网络训练方法，采用弱监督的方式对人体动作识别模型的特征提取网络进行预训练，有以下几点优点：

1)可以提高人体动作识别模型的精度：由于采用了多视角的人体骨骼点序列数据对特征提取网络进行预训练，训练后的特征提取网络可以提取到人体骨骼点序列数据的视角不变特征，从而可以减少因为自我遮挡或者物体遮挡导致的骨骼点噪声问题，因此能够提高人体动作识别模型的动作识别精度。

2)可以减少网络的训练时间：比起不采用弱监督预训练的方式，本申请实施例提供的网络训练方法利用预训练更新后的参数作为特征提取网络的初始值，在进行人体动作识别模型训练时模型可以更快收敛，从而可以减少训练需要的时间。

3)可以减少在进行人体动作识别模型训练时对带标注数据的数据量需求，在较小的目标数据集上达到更好的效果。

下面对本申请实施例提供的网络训练方法的具体实验指标进行说明。以下所有试验的基准数据集都采用了国际通用的NTU-RGBD-60数据集，该数据集具有60个动作类别，提供的数据模态为通过体感(Kinect)设备捕获得到的人体骨骼点序列数据。

表1为本申请实施例提供的采用了弱监督预训练的网络训练方法和相关技术中未采用弱监督预训练的网络训练方法的实验对比表。表1中包括了本申请实施例提供的采用了弱监督预训练的网络训练方法训练的人体动作识别模型在不同的全部样本训练(Epoch)次数时分别对应的验证准确率，以及未采用弱监督预训练的网络训练方法训练的人体动作识别模型在不同Epoch次数时分别对应的验证准确率。从表1中可以看出，在Epoch次数为10、30和50时，本申请实施例提供的采用了弱监督预训练的网络训练方法训练的人体动作识别模型的验证准确率分别为66.00％、79.64％和81.08％，可见在Epoch次数为10时该模型已趋于收敛。而在Epoch次数为10、30和50时，未采用弱监督预训练的网络训练方法训练的人体动作识别模型的验证准确率分别为56.67％、77.57％和78.38％，可见在Epoch次数为30时该模型才趋于收敛。因此，本申请实施例提供的采用了弱监督预训练的网络训练方法对人体动作识别模型进行训练时更容易收敛，而且性能效果更好。

表1采用了弱监督预训练和未采用弱监督预训练的实验对比表

	Epoch 10	Epoch 30	Epoch 50
				弱监督预训练	66.00％	79.64％	81.08％
无预训练	56.67％	77.57％	78.38％

参见图13，图13为在训练数据量缺乏的情况下不同训练方法训练的人体动作识别模型的准确率随时间变化的曲线图。这里，对原始的训练集进行了随机切分，切分成了原始训练集的10％，随后让模型在这个更小的数据集上训练，并且在测试集上正常测试，以达到对数据量缺乏的情况进行模拟的目的。如图13所示，图中的横轴为训练时间，纵轴为训练的人体动作识别模型的准确率，1301为本申请实施例提供的采用了弱监督预训练的网络训练方法在10％的训练数据量时模型的准确率随时间变化的曲线图，1302为未采用弱监督预训练的网络训练方法在10％的训练数据量时模型的准确率随时间变化的曲线图，可以看出，本申请实施例提供的采用了弱监督预训练的网络训练方法在训练数据量缺乏的情况下，能够在更短的时间内达到更好的效果，因此，可以减少人工标注的数据量，从而减人工标注的难度。

表2为本申请实施例提供的ST-GCN结合弱监督预训练的网络训练方法与其他若干前沿方法的实验对比表。这里，对采用ST-GCN作为特征提取网络并采用弱监督预训练的网络训练方法，与其他若干前沿方法在NTU-RGBD-60数据集上的训练效果进行了实验比较。如如表2中的实验数据所示，采用本申请实施例提供的ST-GCN结合弱监督预训练的网络训练方法训练的人体动作识别模型，相较其他若干前沿方法训练的人体动作识别模型，识别准确率最高。

表2 ST-GCN结合弱监督预训练的方法与其他方法的实验对比表

本申请实施例提出的基于人体骨骼点序列的人体动作识别模型的训练方法，通过在辅助数据集上进行弱监督预训练，使得模型可以取得更好的表征能力，这样可以减少模型在目标任务训练上对训练样本数据量的依赖，同时可以在更短的训练时间内取得更好的模型效果。此外，由于辅助数据集不需要人工标注标签，可以在互联网上或者分布广泛的传感器中获得大量的该类数据。以人体骨骼点序列的多视角辅助数据为例，可以在任意未知视角的摄像头中获得，并且不需要对其进行动作标签标注，只需要标注样本数据来源的摄像头编号即可，而样本数据来源的摄像头编号可以通过机器进行自动准确的标注，不需要任何人工介入。

下面继续说明本申请实施例提供的网络训练装置255的实施为软件模块的示例性结构，在一些实施例中，如图2A所示，存储在存储器250的网络训练装置255中的软件模块可以包括：第一更新模块2551，用于利用人体骨骼点序列的第一序列数据集和所述第一序列数据集中每一第一序列数据对应的视角标签，更新预训练模型的模型参数；初始化模块2552，用于基于更新后的预训练模型的模型参数，初始化人体动作识别模型的模型参数；其中，所述预训练模型和所述人体动作识别模型具有结构相同的特征提取网络；第二更新模块2553，用于利用人体骨骼点序列的第二序列数据集和所述第二序列数据集中的每一第二序列数据对应的动作类别标签，对所述人体动作识别模型的模型参数进行更新，得到训练后的人体动作识别模型。

在一些实施例中，网络训练装置还包括：第一获取模块，用于获取利用多个不同视角的摄像头采集的目标多媒体文件，所述目标多媒体文件包括当前场景的彩色图像视频、深度图序列中的至少一项，其中，每一所述摄像头具有唯一的编号；估计模块，用于对每一所述摄像头采集的目标多媒体文件进行人体姿态估计，得到人体骨骼点序列的第一序列数据；第一确定模块，用于将所述摄像头的编号确定为所述第一序列数据的视角标签；加入模块，用于将每一所述第一序列数据和对应所述第一序列数据的视角标签，加入第一序列数据集。

在一些实施例中，网络训练装置还包括：聚类模块，用于对所述第一序列数据集中的第一序列数据进行聚类，得到聚类结果；第二确定模块，用于针对所述聚类结果的每一聚类分组，将与聚类中心的距离超过特定距离阈值的第一序列数据确定为噪声数据；去除模块，用于从所述第一序列数据集中将所述噪声数据去除。

下面继续说明本申请实施例提供的动作识别装置455的实施为软件模块的示例性结构，在一些实施例中，如图2B所示，存储在存储器450的动作识别装置455中的软件模块可以包括：

输入模块4551，用于对输入的视频进行人体姿态估计，得到人体骨骼点序列数据，或者，获得输入的人体骨骼点序列数据；

识别模块4552，用于利用本申请实施例上述网络训练方法训练得到的人体动作识别模型，对所述人体骨骼点序列数据进行识别，得到所述人体骨骼点序列数据对应的动作类别。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的网络训练方法或动作识别方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3示出的方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例，首先，在基于更新后的预训练模型的模型参数初始化人体动作识别模型的模型参数后，再对人体动作识别模型的模型参数进行更新，得到的训练后的人体动作识别模型可以具有更好的视角不变性和更好的表征能力，从而可以减少因为自我遮挡或者物体遮挡导致的骨骼点噪声问题，进而能够提高人体动作识别模型的动作识别精度。其次，基于更新后的预训练模型的模型参数初始化人体动作识别模型的模型参数后，再进行人体动作识别模型训练，模型可以更快收敛，从而可以减少网络训练时间。最后，由于训练后的人体动作识别模型可以具有更好的视角不变性和更好的表征能力，因而在对人体动作识别模型进行训练时，可以减少对动作类别强标注的第二序列数据集的数据量的依赖，在较小的第二序列数据集上取得更好的模型效果，进而在需要人工对人体骨骼点序列数据进行动作类别标注时，可以减少人工工作量和耗时。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种网络训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述利用人体骨骼点序列的第一序列数据集和所述第一序列数据集中每一第一序列数据对应的视角标签，更新预训练模型的模型参数之前，所述方法还包括：

获取利用多个不同视角的摄像头采集的目标多媒体文件，所述目标多媒体文件包括当前场景的彩色图像视频、深度图序列中的至少一项，其中，每一所述摄像头具有唯一的编号；

对每一所述摄像头采集的目标多媒体文件进行人体姿态估计，得到人体骨骼点序列的第一序列数据；

将所述摄像头的编号确定为所述第一序列数据的视角标签；

将每一所述第一序列数据和对应所述第一序列数据的视角标签，加入第一序列数据集。

3.根据权利要求1所述的方法，其特征在于，在所述利用人体骨骼点序列的第一序列数据集和所述第一序列数据集中每一第一序列数据对应的视角标签，更新预训练模型的模型参数之前，所述方法还包括：

对所述第一序列数据集中的第一序列数据进行聚类，得到聚类结果；

针对所述聚类结果的每一聚类分组，将与聚类中心的距离超过特定距离阈值的第一序列数据确定为噪声数据；

从所述第一序列数据集中将所述噪声数据去除。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述预训练模型包括特征提取网络和第一预测类别输出层，所述特征提取网络采用时空图卷积网络，所述第一预测类别输出层采用输出数量为第一输出数量的全连接层，其中，所述第一输出数量为所述第一序列数据集中视角标签的类别数。

5.根据权利要求4所述的方法，其特征在于，所述预训练模型的模型参数包括第一特征参数和第二特征参数，所述第一特征参数为所述特征提取网络的特征参数，所述第二特征参数为所述第一预测类别输出层的特征参数；

所述利用人体骨骼点序列的第一序列数据集和所述第一序列数据集中每一第一序列数据对应的视角标签，更新预训练模型的模型参数，包括：

利用所述特征提取网络，基于初始化后的所述第一特征参数，对每一第一序列数据进行特征提取，得到对应第一序列数据的特征向量；

基于初始化后的所述第二特征参数，利用所述第一预测类别输出层对所述每一第一序列数据的特征向量进行处理，得到对应第一序列数据的类别概率向量；

基于每一第一序列数据的类别概率向量及每一第一序列数据的视角标签，采用交叉熵损失函数计算损失值；

当根据所述损失值确定所述交叉熵损失函数收敛时，将当前的第一特征参数确定为训练后的第一特征参数，并将当前的第二特征参数确定为训练后的第二特征参数。

6.根据权利要求5所述的方法，其特征在于，所述利用人体骨骼点序列的第一序列数据集和所述第一序列数据集中每一第一序列数据对应的视角标签，更新预训练模型的模型参数，还包括：

当根据所述损失值确定所述交叉熵损失函数未收敛时，基于所述交叉熵损失函数，采用指数下降的随机梯度下降算法对所述第一特征参数和所述第二特征参数进行调整；

利用所述特征提取网络，基于调整后的所述第一特征参数，对所述每一第一序列数据进行特征提取，得到对应第一序列数据的调整后的特征向量；

基于调整后的所述第二特征参数，利用所述第一预测类别输出层对所述每一第一序列数据调整后的特征向量进行处理，得到对应第一序列数据的调整后的类别概率向量；

基于每一第一序列数据调整后的类别概率向量及每一第一序列数据的视角标签，采用交叉熵损失函数计算调整后的损失值。

7.一种动作识别方法，其特征在于，所述方法包括：

利用权利要求1至6任一项所述方法训练得到的人体动作识别模型，对所述人体骨骼点序列数据进行识别，得到所述人体骨骼点序列数据对应的动作类别。

8.一种网络训练装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至6任一项所述的方法，或者，实现权利要求7所述的方法。

10.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至7任一项所述的方法。