CN114120436A

CN114120436A - 动作识别模型的训练方法、动作识别方法及相关装置

Info

Publication number: CN114120436A
Application number: CN202010899510.2A
Authority: CN
Inventors: 肖磊; 谢奕; 喻晓源; 陈普
Original assignee: Huawei Cloud Computing Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2022-03-01

Abstract

本申请提供了一种动作识别模型的训练方法、动作识别方法及相关装置，其中，动作识别的模型包括第一模型和第二模型，第一模型包括第三子模型和第四子模型。该方法包括：第一模型利用人物的二维姿态序列以及人物的三维姿态序列，对第一模型进行训练，且人物的二维姿态序列和人物的三维姿态序列具有一致性联系。第二模型利用第一模型输出的二维姿态序列以及由第一模型输出的三维姿态扩展的二维姿态序列，对第二模型进行训练。本申请提供的动作识别模型的训练方法可以提高小样本动作识别场景下人物动作识别的准确率和识别效率。

Description

动作识别模型的训练方法、动作识别方法及相关装置

技术领域

本申请图像处理领域，并且更具体地，涉及动作识别模型的训练方法、动作识别方法及相关装置。

背景技术

在很多场景下，需要对视频中的人物动作进行识别，以确定人物动作的动作类型。例如，在公共场所中，为了避免翻爬、斗殴、违规操作等危害个人及公共安全的恶性事件发生，需要对公共场所获取的视频中的人物动作进行识别。例如，在人机交互系统中，为了对人的行为进行理解，需要对人机交互系统获取的视频中的人物动作进行识别。

为了实现对视频中的人物动作的识别，现有方案包括基于二维姿态估计的动作识别和基于三维姿态估计的动作识别。在基于二维姿态估计的动作识别过程中，由于缺乏人物姿态的深度信息，使得该方法主要适用于存在大量的目标视角下的动作图像序列的场景。在基于三维姿态估计的动作识别过程中，由于考虑了人物姿态的深度信息，使得该方法主要适用于计算资源丰富且对实时性要求不高的动作识别场景。

现有动作识别技术主要存在以下问题：一方面，对小样本动作识别场景及视角样本缺失的特定视角动作识别场景，无法进行有效的训练，导致动作识别准确性较低。另一方面，对计算资源有限及对实时性要求较高的动作识别场景，其在保证姿态估计及动作识别准确性的条件下，无法有效应用。

发明内容

本申请提供一种动作识别模型的训练方法、动作识别方法及相关装置，使用该方法对小样本待识别人物图像中的人物动作进行识别时，具有较高的识别准确率和识别效率。

第一方面，提供了一种动作识别模型的训练方法，其特征在于，该动作识别模型包括第一模型和第二模型，该方法包括：

获取M个训练图像以及该M个训练图像的标注数据，该M个训练图像中的每个训练图像包括人物，该每个训练图像的标注数据包括该每个训练图像中的人物所在的包围框和该每个训练图像中的人物姿态标注信息，M为大于1的整数；

通过该第一模型对该M个训练图像进行处理，得到该M个训练图像对应的姿态序列，该M个训练图像对应的姿态序列包括该M个训练图像对应的第一类二维姿态序列和该M个训练图像对应的第二类二维姿态序列，该M个训练图像对应的第一类二维姿态序列是根据该M个训练图像包括的人物的二维热力图得到的，该M个训练图像对应的第二类二维姿态序列是对该M个训练图像对应的第二类三维姿态序列进行二维投影得到的，该M个训练图像对应的第二类三维姿态序列是对该M个训练图像对应的第一类三维姿态序列进行任意或特定角度旋转得到的，该M个训练图像对应的第一类三维姿态序列是根据该M个训练图像包括的人物的三维热力图得到的；

通过利用该M个训练图像对应的姿态序列，对该第二模型进行训练，直到该第二模型满足第二预设要求；

其中，该第一模型通过以下步骤训练得到：

步骤1：对该每个训练图像中的人物姿态标注信息进行处理，得到该每个训练图像中的人物姿态标签，该姿态标签包括二维姿态标签、三维姿态标签和二维姿态关键点置信度热力图标签；

步骤2：对该第一模型进行初始化处理，以得到该第一模型的模型参数的初始值；

步骤3：将该M个训练图像中的第一批训练图像输入到该第一模型，得到该第一批训练图像对应的姿态序列，该第一批训练图像对应的姿态序列包括该第一批训练图像对应的第一类二维姿态序列、该第一批训练图像对应的第一类三维姿态序列、该第一批训练图像对应的共性二维姿态序列以及该第一批训练图像对应的共性三维姿态序列，该第一批训练图像对应的第一类二维姿态序列是根据该第一批训练图像中包括的人物的二维热力图得到的，该第一批训练图像对应的第一类三维姿态序列是根据该第一批训练图像中包括的人物的三维热力图得到的，该共性二维姿态序列是根据该第一批训练图像对应的二维姿态序列与该第一批训练图像对应的三维姿态序列中公共的姿态关键点确定的二维姿态序列，该共性三维姿态序列是根据该第一批训练图像对应的二维姿态序列与该第一批训练图像对应的三维姿态序列中公共的姿态关键点确定的三维姿态序列；

步骤4：根据该第一批训练图像对应的姿态序列，确定该第一模型的损失值，该第一模型的损失值是对第一损失值、第二损失值、第三损失值和第四损失值进行加权处理得到的，该第一损失值是根据该第一批训练图像对应的第一类二维姿态序列和该第一批训练图像对应的二维姿态标签确定的，该第二损失值是根据该第一批训练图像对应的第一类三维姿态序列和该第一批训练图像对应的三维姿态标签确定的，该第三损失值是根据该第一批训练图像对应的共性二维姿态序列和该第一批训练图像对应的共性三维姿态序列确定的，该第四损失值是根据该第一批训练图像对应的二维姿态关键点置信度热力图标签和该第一批训练图像对应的二维姿态关键点置信度热力图确定的；

步骤6：根据该第一模型的损失值对该第一模型的模型参数进行更新；

重复上述步骤3至步骤5，直到该第一模型满足第一预设要求。

基于上述技术方案，第一模型通过使用人物的二维姿态序列以及人物的三维姿态序列，对第一模型进行训练，且人物的二维姿态序列和人物的三维姿态序列具有一致性联系。由于该第一模型中的第三子模型对人物二维姿态预测时考虑了人物姿态的三维姿态信息，使得该第三子模型对人物二维姿态进行预测的预测结果具有较高的准确度和较低的预测延时。第二模型可以利用第一模型输出的二维姿态序列以及由第一模型输出的三维姿态扩展的二维姿态序列，对第二模型进行训练。

本申请提供的动作识别模型的训练方法可以提高小样本动作识别场景下人物动作识别的准确率和识别效率。具体的，通过使用与二维姿态具有一致性的三维姿态进行任意方向的视角变换与平面投影，生成同一动作在不同视角下的二维姿态，能够有效提高数据多样性和模型泛化性，从而提高小样本动作识别场景下动作识别的准确率。通过仅使用第一模型中的第三子模型对人物姿态进行预测，在保证对人物二维姿态预测结果具有较高准确度的前提下，能够满足较低的姿态预测延时需求，从而可以提高动作识别模型对人物动作识别的识别效率和识别准确率。

结合第一方面，在第一方面的某些实现方式中，该第一模型包括第一子模型和第二子模型，该第二子模型包括第三子模型和第四子模型，该通过该第一模型对该M个训练图像进行处理，得到该M个训练图像对应的姿态序列，包括：

通过该第三子模型对该M个训练图像进行处理，得到该M个训练图像对应的第一类二维姿态序列；

通过该第四子模型对该M个训练图像进行处理，得到该M个训练图像对应的第一类三维姿态序列；

通过该第一模型对该M个训练图像对应的第一类三维姿态序列进行任意或特定角度旋转，得到该M个训练图像对应的第二类二维姿态序列。

基于上述技术方案，对第一类三维姿态序列进行任意或特定角度旋转，可以扩大训练图像的样本容量，以及训练图像包括的人物姿态视角的丰富度。训练图像包括的人物姿态视角的丰富度，可以理解为，不同视角或特定视角下对应的该人物姿态。

结合第一方面，在第一方面的某些实现方式中，该第二模型通过以下步骤训练得到：

步骤7：对该第二模型的模型参数进行初始化处理，以得到该第二模型的模型参数的初始值；

步骤8：对该M个训练图像中的第二批训练图像对应的二维姿态序列以及该第二批训练图像对应的第一类二维姿态序列的关键点置信度进行拼接，得到特征图，该第二批训练图像对应的第一类二维姿态序列的关键点置信度是该第一模型根据该第二批训练图像对应的第一类二维姿态序列、该第二批训练图像对应的第一类三维姿态序列以及该第二批训练图像对应的第一类二维姿态序列对应的姿态关键点热力图确定的；

步骤9：将该特征图输入到该第二模型，得到该第二模型的损失值；

步骤10：根据该第二模型的损失值对该第二模型的模型参数进行更新；

重复上述步骤8至步骤10，直到该第二模型满足第二预设要求。

基于上述技术方案，可以通过第一模型输出的二维姿态序列对第二模型进行训练，能够提高第二模型的训练效率。

应理解的是，上述第一批训练图像和上述第二批训练图像可以是同一批训练图像或不是同一批训练图像，本申请对比不作具体限定。

结合第一方面，在第一方面的某些实现方式中，该对该M个训练图像中的第二批训练图像对应的二维姿态序列以及该第二批训练图像对应的第一类二维姿态序列的关键点置信度进行拼接，得到特征图，包括：

对该第二批训练图像对应的第二类二维姿态序列以及该第二批训练图像对应的第一类二维姿态序列的关键点置信度进行拼接，得到该特征图；或者

对该第二批训练图像对应的第一类二维姿态序列、该第二批训练图像对应的第二类二维姿态序列以及该第二批训练图像对应的第一类二维姿态序列的关键点置信度进行拼接，得到该特征图。结合第一方面，在第一方面的某些实现方式中，该第二模型满足第二预设要求，包括：

在满足下列条件中的至少一种时，该第二模型满足该第二预设要求：

该第二模型的训练次数大于或者等于第二预设次数；

该第二模型的损失值小于或者等于第二预设阈值。

可选的，在一些实现方式中，该第二模型的损失值小于或者等于第二预设阈值，还可以替换为，该第二模型的损失值的变化小于或者等于第三预设阈值。

结合第一方面，在第一方面的某些实现方式中，该第一模型满足第一预设要求，包括：

在满足下列条件中的至少一种时，该第一模型满足该第一预设要求：

该第一模型的训练次数大于或者等于第一预设次数；

该第一模型的损失值小于或者等于第一预设阈值。

可选的，在一些实现方式中，该第一模型的损失值小于或者等于第二预设阈值，还可以替换为，该第一模型的损失值的变化小于或者等于第四预设阈值。

第二方面，提供了一种动作识别方法，其特征在于，该方法包括：

获取待识别人物图像序列；

利用第一模型对该待识别人物图像序列进行处理，得到该待识别人物图像序列对应的二维姿态序列和该二维姿态序列的关键点置信度，该二维姿态序列是根据该待识别人物图像序列包括的人物的二维热力图得到的；

对该二维姿态序列以及该二维姿态序列的关键点置信度进行拼接，得到特征图，该二维姿态序列的关键点置信度是根据该二维姿态序列以及该二维姿态序列对应的姿态关键点热力图确定的；

将该特征图输入至第二模型，得到该待识别人物图像序列的动作识别结果；

其中，该第一模型和该第二模型是第一方面中的训练方法训练得到的。

基于上述技术方案，使用本申请提供的动作识别模型对待识别人物图像序列中的人物动作进行识别时具有较高的实时性，得到的动作识别结果具有较高的准确率。

结合第二方面，在第二方面的某些实现方式中，该第一模型包括第三子模型，

该利用第一模型对待识别人物图像序列进行处理，得到该待识别人物图像序列对应的二维姿态序列和该二维姿态序列的关键点置信度，包括：

通过该第三子模型对该待识别人物图像序列进行处理，得到该待识别人物图像序列对应的二维姿态序列和该二维姿态序列的关键点置信度。

第三方面，提供了一种动作识别模型的训练装置，该动作识别模型的训练装置包括用于执行该第一方面或者第一方面的任一可能的实现方式中的方法的模块。

第四方面，提供了一种动作识别装置，该动作识别装置包括用于执行该第二方面或者第二方面的任一可能的实现方式中的方法的模块。

第五方面，提供一种动作识别模型的训练装置，该动作识别模型的装置包括存储介质和中央处理器，该存储介质可以是非易失性存储介质，该存储介质中存储有计算机可执行程序，该中央处理器与该非易失性存储介质连接，并执行该计算机可执行程序以实现该第一方面或者第一方面的任一可能的实现方式中的方法。

第六方面，提供一种动作识别装置，所述动作识别装置包括存储介质和中央处理器，所述存储介质可以是非易失性存储介质，所述存储介质中存储有计算机可执行程序，所述中央处理器与所述非易失性存储介质连接，并执行所述计算机可执行程序以实现所述第二方面或者第二方面的任一可能的实现方式中的方法。

第七方面，提供一种芯片，所述芯片包括处理器与通信接口，所述通信接口用于与外部器件进行通信，所述处理器用于执行第一方面或第一方面的任一可能的实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面或第一方面的任一可能的实现方式中的方法。

第八方面，提供一种芯片，所述芯片包括处理器与通信接口，所述通信接口用于与外部器件进行通信，所述处理器用于执行第二方面或第二方面的任一可能的实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第二方面或第二方面的任一可能的实现方式中的方法。

第九方面，提供一种计算机可读存储介质，所述计算机可读介质存储用于设备执行的程序代码，所述程序代码包括用于执行第一方面或者第一方面的任一可能的实现方式中的方法的指令。

第十方面，提供一种计算机可读存储介质，所述计算机可读介质存储用于设备执行的程序代码，所述程序代码包括用于执行第二方面或者第二方面的任一可能的实现方式中的方法的指令。

附图说明

图1是本申请实施例的系统架构100的示意图。

图2是本申请实施例的系统架构200的示意图。

图3是本申请提供的动作识别模型中的第一模型的训练方法100的示意性流程图。

图4是本申请提供的人物姿态关键点的示意图。

图5是本申请提供的动作识别模型中的第二模型的训练方法200的示意性流程图。

图6是本申请实施例的动作识别方法300的示意性流程图。

图7是本申请实施例的动作识别模型的训练装置7000的示意性框图。

图8是本申请实施例的动作识别模型的训练装置8000的示意性框图。

图9是本申请实施例的动作识别装置9000的示意性框图。

图10是本申请实施例的动作识别装置1000的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

在本申请实施例中，“示例的”、“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方式呈现概念。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

下面，对本申请实施例的动作识别方法可能的应用场景进行介绍。

本申请实施例的动作识别方法可以应用在以下几种场景中。

场景一：行人行为分析预警系统

在自动驾驶系统(Autonomous Driving System，ADS)或者高级辅助驾驶系统(Advanced Driving Assistant System，ADAS)中，如何避免碰撞行人是一个非常重要的问题，为了解决该问题，一般是识别出路上的行人并计算行人与汽车之间的距离来避免碰撞行人。但是仅仅计算行人与汽车之间的距离并不能很好地避免碰撞行人。本申请的动作识别方法可以应用在行人行为分析预警系统中，对行人的动作类型进行识别，进而得到行人的动作类型，接下来，可以根据行人的动作类型分析对驾驶的威胁程度，例如，行人的行走对驾驶的威胁程度较小，行人在跑步或者看手机对驾驶的威胁程度较大。通过识别出对驾驶威胁程度较大的行为，可以提前进行预警或者进行相应的处理措施。

场景二：驾驶员危险行为提醒系统

很多交通事故是由于驾驶员的疏忽造成的，如驾驶员开车时看手机或者在开车时作出其它的危险行为等等。本申请的动作识别方法可以应用在驾驶员危险行为提醒系统中，以及时发现驾驶员的危险行为并对发出警告，从而降低交通事故的发生率。

场景三：人机交互系统

在人机交互系统中可以采用本申请实施例的动作识别方法和姿势估计方法对玩家的视频进行处理，从而识别出人体的动作(如：攻击、防守等)和姿势(主要人体关节的位置)。接下来，人机交互系统可以根据识别出来的动作执行相应的操作(如：攻击、防守等)，另外根据识别的姿势在屏幕上显示与玩家一样动作的人物，从而提高人机交互的体验。

场景四：平安城市中危险行为识别系统

平安城市中的危险行为识别系统可以包括城市监控摄像机、动作识别模块和危险行为报警模块。危险行为识别系统通过城市监控摄像机采集的视频，通过动作识别模块(该动作识别模块具体可以采用本申请实施例的动作识别方法对人的动作进行识别)识别出监控视频中人的动作，当监控视频中的人出现危险行为(如抢劫、行凶、斗殴等)时，通过危险报警模块向相关部分发出报警信息。

应理解，除了上述场景一至场景四之外，本申请实施例的动作识别方法还可以应用在其它需要对视频中的人体进行动作识别的场景中。

下面结合图1对本申请实施例的系统架构进行详细的介绍。

图1是本申请实施例的系统架构100的示意图。如图1所示，该系统架构100包括执行设备110、训练设备120、数据库130、客户设备140、数据存储系统150、以及数据采集系统160。

另外，执行设备110包括计算模块111、I/O接口112、预处理模块113和预处理模块114。其中，计算模块111中可以包括目标模型/规则101，预处理模块113和预处理模块114是可选的。

数据采集设备160用于采集训练数据。针对本申请实施例的动作识别网络的训练方法来说，训练数据可以包括M个训练图像以及该M个训练图像的标注数据。在采集到训练数据之后，数据采集设备160将这些训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。

下面对训练设备120基于训练数据得到目标模型/规则101进行描述，训练设备120对输入的训练图像进行特征提取，得到训练图像的特征图，重复对输入的训练图像进行特征提取，直到损失函数的函数值满足预设要求(小于或者等于预设阈值)，从而完成目标模型/规则101的训练。

应理解，上述目标模型/规则101的训练可以是一个无监督的训练。

上述目标模型/规则101能够用于实现本申请实施例的动作识别方法，即，将待识别图像(待识别图像可以是需要进行待识别识别的图像)输入该目标模型/规则101，即可得到对待识别图像提取特征图，并基于提取到的特征图进行动作识别，确定动作的识别结果。本申请实施例中的目标模型/规则101具体可以为神经网络。需要说明的是，在实际应用中，数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图1所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端等。在图1中，执行设备110配置输入/输出(input/output，I/O)接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，所述输入数据在本申请实施例中可以包括：客户设备输入的待识别图像。这里的客户设备140具体可以是监控设备。

预处理模块113和预处理模块114用于根据I/O接口112接收到的输入数据(如待识别图像)进行预处理，在本申请实施例中，可以没有预处理模块113和预处理模块114或者只有的一个预处理模块。当不存在预处理模块113和预处理模块114时，可以直接采用计算模块111对输入数据进行处理。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果(具体可以是动作识别得到的高质量图像)，如将目标模型/规则101对待识别图像进行动作识别处理得到的待识别图像的动作识别结果呈现给客户设备140，从而提供给用户。

具体地，经过计算模块111中的目标模型/规则101进行动作识别得到的高质量图像可以通过预处理模块113(也可以再加上预处理模块114的处理)的处理(例如，进行图像渲染处理)后将处理结果送入到I/O接口，再由I/O接口将处理结果送入到客户设备140中显示。

应理解，当上述系统架构100中不存在预处理模块113和预处理模块114时，计算模块111还可以将通过动作识别处理得到的高质量图像传输到I/O接口，然后再由I/O接口将处理结果送入到客户设备140中显示。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务(例如，训练设备可以针对不同场景下真实高质量图像和近似低质量图像进行训练)，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

值得注意的是，图1仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图1中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

如图1所示，根据训练设备120训练得到目标模型/规则101，可以是神经网络模型。例如，该神经网络模型可以是分层式共现网络(hierarchical co-ocurrence network，HCN)。例如，该神经网络模型可以是时空图卷积神经网络(spatial-temporal graphconvolutional neural networks，ST-GCN)等等。

图2是本申请实施例的系统架构200的示意图。

如图2所示，该系统架构200包括本地设备301、本地设备302以及执行设备210和数据存储系统250，其中，本地设备301和本地设备302通过通信网络与执行设备210连接。

执行设备210可以由一个或多个服务器实现。可选的，执行设备210可以与其它计算设备配合使用，例如：数据存储器、路由器、负载均衡器等设备。执行设备210可以布置在一个物理站点上，或者分布在多个物理站点上。执行设备210可以使用数据存储系统250中的数据，或者调用数据存储系统250中的程序代码来实现本申请实施例的动作识别方法。

用户可以操作各自的用户设备(例如本地设备301和本地设备302)与执行设备210进行交互。每个本地设备可以表示任何计算设备，例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备210进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。

在一种实现方式中，本地设备301、本地设备302从执行设备210获取到目标神经网络的相关参数，将目标神经网络部署在本地设备301、本地设备302上，利用该目标神经网络进行动作识别。

在另一种实现中，执行设备210上可以直接部署目标神经网络，执行设备210通过从本地设备301和本地设备302获取人体图像(本地设备301和本地设备302可以将人体图像上传给执行设备210)，并根据目标神经网络对人体图像进行动作识别，并将动作识别得到的高质量图像发送给本地设备301和本地设备302。

上述执行设备210也可以称为云端设备，此时执行设备210一般部署在云端。

如图3所示，该方法100包括步骤1001至步骤1009，下面对步骤1001至步骤1009进行详细的介绍。

步骤1001、开始。

上述步骤1001表示开始第一模型的训练过程。

步骤1002、获取训练数据。

上述步骤1002中的训练数据包括M(M为大于1的整数)个训练图像以及M个训练图像的标注数据。其中，在M个训练图像中，每个训练图像包括人物，每个训练图像的标注数据包括每个训练图像中的人物所在的包围框和每个训练图像中的人物姿态标注信息。

在本申请中，对人物姿态标注信息不作具体限定。例如，人物的姿态标注信息可以为站立、摔倒或攀爬等。

步骤1003、根据每个训练图像包括的人物的标注数据，获取每个训练图像包括的人物的姿态标签。

其中，每个训练图像包括的人物的姿态标签包括该人物的二维姿态标签、该人物的三维姿态标签以及置信度热力图标签。

以M个训练图像中的第i个训练图像为例，介绍根据标注数据获取人物的姿态标签的方法。

具体的，先根据第i个训练图像中目标人物所在的矩形框对第i个训练图像进行截取，生成以目标人物为中心的图像I。然后，对图像I包括的人物的姿态标注信息进行变换(将以原始图像坐标系表示的姿态标注平移变换到以目标人物为中心的图像I坐标系表示的姿态标注，具体而言，就是将其原始姿态标注分别减去图像I的左上角在原始图像中的坐标)，生成图像I包括的人物的二维姿态标签

三维姿态标签

以及置信度热力图标签

步骤1004、对第一模型的模型参数进行初始化处理，以得到第一模型的模型参数的初始值。

在本申请中，第一模型包括第一子模型和第二子模型，第二子模型第三子模型和第四子模型。

在一些实施例中，第一子模型可以为骨干网络(backbone)，第二子模型可以为姿态头网络(pose head net)，第三子模型可以为姿态头网络中的二维姿态头网络，第四子模型可以为姿态头网络中的三维姿态头网络。

其中，骨干网络可以选用任意现有的骨干网络。例如，该骨干网络可以是VGGNet、ResNet、DenseNet或SENet等。以ResNet为例，ResNet的网络结构通过引入残差连接来改善信息流动，使其可以更有效的进行梯度反向传播。姿态头网络可以选用任意现有的特征解码方式(例如，多层反卷积)对骨干网络编码的特征进行处理。此外，三维姿态头网络可以对二维姿态头网络中部分特征进行融合使用。

上述步骤1004中可以随机设置第一模型的网络参数，得到第一模型的模型参数的初始值。

步骤1005、将M个训练图像中的一批训练图像(即，第一批训练图像的一例)输入第一模型，得到该一批训练图像对应的姿态序列。

上述步骤1005中，一批训练图像对应的姿态序列包括一批训练图像对应的第一类二维姿态序列、一批训练图像对应的第一类三维姿态序列、一批训练图像对应的共性二维姿态序列以及一批训练图像对应的共性三维姿态序列。其中，一批训练图像对应的第一类二维姿态序列是根据一批训练图像中包括的人物的二维热力图得到的，一批训练图像对应的第一类三维姿态序列是根据一批训练图像中包括的人物的三维热力图得到的，共性二维姿态序列是根据一批训练图像对应的二维姿态序列与一批训练图像对应的三维姿态序列中公共的姿态关键点确定的，共性三维姿态序列是根据是根据一批训练图像对应的二维姿态序列与一批训练图像对应的三维姿态序列中公共的姿态关键点确定的。

上述，一批训练图像对应的第一类二维姿态序列是根据一批训练图像中包括的人物的二维热力图得到的，具体可以包括：

对一批训练图像中包括的人物的二维热力图包括的二维姿态关键点的重心进行计算，得到第一类二维姿态序列。

上述，一批训练图像对应的第一类三维姿态序列是根据一批训练图像中包括的人物的三维热力图得到的，具体可以包括：

对一批训练图像中包括的人物的三维热力图包括的三维姿态关键点的重心进行计算，得到第一类三维姿态序列。

作为示例非限定，当上述一批训练图像为上述M个训练图像中的T(T为小于等于M且大于0的整数)个训练图像时，具体的，上述一批训练图像对应的姿态序列可以包括：二维姿态序列

(即，上述一批训练图像对应的第一类二维姿态序列的一例)、三维姿态序列

(即，上述一批训练图像对应的第一类三维姿态序列的一例)、共性二维姿态序列

以及共性三维姿态序列

其中，P_i ^2d为上述一批训练图像中第i个训练图像包括的人物的第一类二维姿态；P_i ^3d为上述一批训练图像中第i个训练图像包括的人物的第一类三维姿态；

为上述一批训练图像中第i个训练图像包括的人物的共性二维姿态；

为上述一批训练图像中第i个训练图像包括的人物的共性三维姿态，且i＝1,2,…,T。

需说明的是，共性二维姿态是根据二维姿态P_i ^2d和三维姿态P_i ^3d获取的。共性三维姿态

根据二维姿态P_i ^2d和三维姿态P_i ^3d获取的。

作为示例非限定，可以通过如下步骤根据二维姿态P_i ^2d和三维姿态P_i ^3d得到共性二维姿态

和共性三维姿态

二维姿态的关键点为2d_joints_name＝['Nose','L_Eye','R_Eye','L_Ear','R_Ear','L_Shoulder','R_Shoulder','L_Elbow','R_Elbow','L_Wrist','R_Wrist','L_Hip','R_Hip','L_Knee','R_Knee','L_Ankle','R_Ankle','Thorax','Pelvis'

]

三维姿态的关键点为3d_joints_name＝['Pelvis','R_Hip','R_Knee','R_Ankle','L_Hip','L_Knee','L_Ankle','Torso','Neck','Nose','Head','L_Shoulder','L_Elbow','L_Wrist','R_Shoulder','R_Elbow','R_Wrist','Thorax'

]

则共性关键点为common_joints_name＝['R_Hip','R_Knee','R_Ankle','L_Hip','L_Knee','L_Ankle','Nose','L_Shoulder','L_Elbow','L_Wrist','R_Shoulder','R_Elbow','R_Wrist','Thorax'

]

可以得到共性二维姿态的关键点转换索引为2d_joint_index＝[12,14,16,11,13,15,0,5,7,9,6,8,10,17]。

其中，2d_joint_index中的第i个位置上的索引值表示共性关键点中第i个位置上的姿态关键点在二维姿态的关键点中的索引，i为大于等于0且小于等于13的整数。

例如，“12”可以理解为，共性关键点中的'R_Hip'在二维姿态的关键点中的索引。同样的，“14”可以理解为，共性关键点中的'R_Knee'在二维姿态的关键点中的索引。

可以得到共性三维姿态的关键点转换索引为3d_joint_index＝[1,2,3,4,5,6,9,11,12,13,14,15,16,17]。

其中，3d_joint_index中的第i个位置上的索引值表示共性关键点中第i个位置上的姿态关键点在三维姿态的关键点中的索引，i为大于等于0且小于等于13的整数。

例如，“1”可以理解为，共性关键点中的'R_Hip'在二维姿态的关键点中的索引。

因此可以得到相应的共性二维姿态为

因此可以得到相应的共性三维姿态为

其中，上述一批训练图像的姿态热力图包括每个训练图像包括的人物的二维姿态热力图、三维姿态热力图以及姿态关键点置信度热力图。

在本申请中，对每张热力图中包括的姿态关键点的数目不作具体限定。

在一些实施例中，每张热力图中可以仅包括一个姿态关键点。例如，图像A包括的目标人物包括N个姿态关键点。在此情况下，图像A对应的热力图可以为N张热力图，这N张热力图与N个姿态关键点一一对应。

在一些实施例中，每张热力图中可以包括多个姿态关键点。例如，图像A包括的人物包括6个姿态关键点。在此情况下，图像A对应的热力图可以为1张热力图。换句话说，这1张热力图中包括6个姿态关键点。

在本申请中可以根据人物的姿态热力图得到该人物的二维姿态和/或三维姿态。

在一些实施例中，可以通过第一子模型对人物的二维姿态热力图包括的关键点的重心进行计算，得到该人物的第一类二维姿态和该人物的第一类三维姿态。

本申请中对人物姿态关键点不作具体限定。

如图4所示，头部(head)、左肩膀(shoulder)、右肩膀、左肘部(elbow)、右肘部、左手腕(wrist)、右手腕、左臀部(hip)、右臀部、左膝盖(knee)、右膝盖、左脚踝(ankle)和右脚踝均为人物姿态关键点，也就是说，图4示出了13个人物姿态关键点，这些人物姿态关键点的编号为(1)至(13)。

应理解，本申请中的人物姿态关键点并不局限于上述姿态关键点，上述人物姿态关键点也可以称为人体关节。

步骤1006、根据上述一批训练图像对应的姿态序列，确定第一模型的损失值。

上述步骤1006中第一模型的损失值是对第一损失值、第二损失值、第三损失值和第四损失值进行加权处理得到的。

其中，第一损失值是根据一批训练图像对应的第一类二维姿态序列和一批训练图像对应的二维姿态标签确定的，第二损失值是根据一批训练图像对应的第一类三维姿态序列和一批训练图像对应的三维姿态标签确定的，第三损失值是根据一批训练图像对应的共性二维姿态序列和一批训练图像对应的共性三维姿态序列确定的，第四损失值是根据一批训练图像对应的姿态关键点置信度热力图标签和一批训练图像对应的姿态关键点置信度热力图确定的。

例如，可以根据距离公式计算第一损失值、第二损失值、第三损失值或第四损失值。

步骤1007、根据第一模型的损失值对第一模型的模型参数进行更新。

步骤1008、确定第一模型满足预设要求。

可选地，第一模型满足预设要求，包括：第一模型满足下列条件中的至少一种：

(1)第一模型的训练次数大于或者等于预设次数；

(2)第一模型的损失值小于或者等于预设阈值。

可选的，在一些实现方式中，该第一模型的损失值小于或者等于预设阈值，还可以替换为，该第一模型的损失值的变化小于或者等于预设阈值。

在步骤1008中，当二维三维姿态联合估计网络满足上述条件(1)或(2)中的至少一个时，可以确定第一模型满足预设要求，执行步骤1009，第一模型的训练过程结束；而当第一模型不满足上述条件(1)或(2)中的任意一个时，说明第一模型尚未满足预设要求，需要继续对第一模型进行训练，也就是重新执行步骤1005至1008，直到得到满足预设要求的第一模型。上述预设阈值可以根据经验进行灵活设置，当预设阈值设置的过大时训练得到的第一模型的输出效果可能不够好，而当预设阈值设置的过小时在训练时第一模型的损失值可能难以收敛。

可选地，上述预设阈值的取值范围为[0，0.1]。

具体地，上述预设阈值的取值可以为0.01。

步骤1009、结束。

上述步骤1009表示结束第一模型的训练过程。

应理解的是，在本申请实施例中，通过训练好的第一模型中的第三子模型对待识别人物图像序列进行处理后，可以得到该待识别人物图像序列对应的第一类二维姿态序列。通过训练好的第一模型中的第四子模型对待识别人物图像序列进行处理后，可以得到该待识别人物图像序列对应的第一类三维姿态序列。在此之后，第一模型还可以执行如下步骤：

第一模型对该待识别人物图像序列对应的第一类三维姿态序列进行任意或特定角度旋转，得到该待识别人物图像序列对应的第二类三维姿态序列；

第一模型对该待识别人物图像序列对应的第二类三维姿态序列进行二维平面投影，得到的该待识别人物图像序列对应的第二类二维姿态序列。

其中，第二类二维姿态与第一类二维姿态不同，可以理解为，这两类二维姿态具有不相同视角。也可以说，这两类二维姿态是通过不同视角拍摄获得的。

作为示例非限定，当第一类三维姿态序列可以表示为

T表示待识别人物图像的总数目，P₁ ^3d表示第一张待识别人物图像对应的第一类三维姿态序列，以此类推。将第一类三维姿态序列

绕x轴旋转任意(或特定)角度，将第一类三维姿态序列

绕y轴旋转任意(或特定)角度，并对x-y平面进行二维投影，可以得到第二类二维姿态序列

在一些实现方式中，将上述T个第一类三维姿态中的第t个第一类三维姿态P_t ^3d(对应于第t个待识别人物图像)绕x轴、y轴、z轴分别旋转α、β、γ角度后，得到的第t个待识别人物图像对应的第二类三维姿态

可以表示为：

其中，R为P_t ^3d绕x轴旋转α、绕y轴旋转β以及绕z轴旋转γ后的视角变换矩阵，R_x为P_t ^3d绕x轴旋转α后的视角变换矩阵，R_y为P_t ^3d绕y轴旋转β后的视角变换矩阵，R_z为P_t ^3d绕z轴旋转γ后的视角变换矩阵。

上述R可以表示为：

然后，再对第t个待识别人物图像对应的第二类三维姿态

进行二维平面投影，就可以获得第t个待识别人物图像对应的第二类二维姿态

在本申请中，对α、β、γ的角度不做具体限定。可以根据具体的应用场景或用户需求选取α、β、γ。例如，α可以为60°，β可以为30°，γ可以为20°。例如，α可以为20°，β可以为15°，γ可以为120°。

本申请实施例提供了一种训练第一模型的方法，该第一模型可以对待识别图像中包括的人物的姿态进行预测。第一模型通过使用人物的二维姿态序列以及人物的三维姿态序列，对第一模型进行训练，且人物的二维姿态序列和人物的三维姿态序列具有一致性联系。由于该第一模型中的第三子模型对人物二维姿态预测时考虑了人物姿态的三维姿态信息，使得该第三子模型对人物二维姿态进行预测的预测结果具有较高的准确度和较低的预测延时。此外，第一模型还可以根据其输出的三维姿态序列(即，第一类三维姿态序列)得到扩展的二维姿态序列(即，第二类二维姿态序列)，从而能够有效的扩大二维姿态序列的样本容量。

如图5所示，该方法200包括步骤2001至步骤2008，下面对步骤2001至步骤2008进行详细的介绍。

步骤2001、开始。

上述步骤2001表示开始第二模型的训练过程。

步骤2002、获取训练数据。

上述步骤2002中的训练数据包括M(M为大于1的整数)个训练图像以及M个训练图像的标注数据。其中，在M个训练图像中，每个训练图像包括人物，每个训练图像的标注数据包括每个训练图像中的人物所在的包围框和每个训练图像中的人物姿态标注信息。

步骤2003、将每个训练图像输入第一模型，获取每个训练图像包括的人物的姿态。

上述步骤2003中的第一模型为根据方法100训练后得到的模型。其中，步骤2003中采用的第一模型可以是根据本申请实施例的第一模型的训练方法训练得到的，具体的，第一模型可以是通过图3所示的方法训练得到的。

上述步骤2003中的每个训练图像包括的人物的姿态包括：该人物的第一类二维姿态、该人物的第二类二维姿态以及第一类二维姿态置信度。其中，该人物的第一类二维姿态置信度是第一模型根据该人物的第一类二维姿态、该人物的第一类三维姿态以及该人物的第一类二维姿态关键点置信度热力图得到的。

具体的，当有T个训练图像时，T个训练图像包括的人物的姿态序列包括：第一类二维姿态序列

第二类二维姿态序列

以及第一类二维姿态置信度序列C＝{C₁,C₂,......,C_T}。其中，P_i ^2d为上述T个待识别动作图像中第i个待识别动作图像包括的人物的第一类二维姿态；

为上述T个待识别动作图像中第i个待识别动作图像包括的人物的第二类二维姿态；C_i为上述T个待识别动作图像中第i个待识别动作图像包括的人物的第一类二维姿态置信度；且i＝1,2,…,T。其中，第一类二维姿态置信度序列C＝{C₁,C₂,......,C_T}是第一模型根据第一类二维姿态序列

第一类三维姿态序列

以及第一类二维姿态序列关键点置信度热力图

得到的。

步骤2004、对第二模型的模型参数进行初始化处理，以得到第二模型的模型参数的初始值。

在本申请中，对第二模型的类型不作具体限定。例如，该第二模型可以是卷积神经网络模型。例如，第二模型可以是循环神经网络(recurrent neural network，RNN)模型。

上述步骤2004中可以随机设置动作识别网络的网络参数，得到动作识别网络的网络参数的初始值。

步骤2005、对训练图像的姿态序列数据进行构建，得到特征图。

在本申请实施例中，对训练图像的姿态序列数据进行构建，得到特征图，具体可以包括：

对M个训练图像中的一批训练图像(即，第二批训练图像的一例)对应的二维姿态序列以及该一批训练图像对应的第一类二维姿态序列的关键点置信度进行拼接，得到特征图。

例如，当上述一批训练图像为P(P为小于等于M且大于等于1的整数)个训练图像时，且该P个训练图像对应的第一类二维姿态序列包括P个第一类二维姿态时，可以将P个第一类二维姿态中的每个第一类二维姿态中的每个关键点的二维坐标与对应的第一类二维姿态关键点置信度拼接作为该姿态关键点的特征，进而得到一个维度为D×T×N的特征图。其中，D为每个第一类二维姿态关键点的特征维度，T为序列帧数目，N为P个训练图像中的第T个训练图像包括的人物的姿态关键点的数量。

可选的，在一些实施例中，对训练图像的姿态序列数据进行构建，得到特征图，还可以包括如下步骤：

对M个训练图像对应的一批第一类二维姿态、M个训练图像对应的一批第二类二维姿态以及M个训练图像对应的一批二维姿态关键点置信度进行拼接，得到特征图。

例如，在M个训练图像对应的第一类二维姿态序列

和M个训练图像对应的第二类二维姿态序列

中随机选取T个二维姿态序列，T个二维姿态序列包括T1个第一类二维姿态序列和T2个第二类二维姿态序列，T1和T2为大于等于零的整数，且0≤T1+T2≤T；并将T1个第一类二维姿态序列、T2个第二类二维姿态序列以及T1个第一类二维姿态关键点置信度进行拼接，得到特征图。

步骤2006、根据上述特征图，确定第二模型的损失值。

步骤2007、确定第二模型满足预设要求。

可选地，第二模型网络满足预设要求，包括：第二模型满足下列条件中的至少一种：

(1)第二模型的训练次数大于或者等于预设次数；

(2)第二模型的损失值小于或者等于预设阈值。

可选的，在一些实现方式中，该第二模型的损失值小于或者等于预设阈值，还可以替换为，该第二模型的损失值的变化小于或者等于预设阈值。

在步骤2007中，当第二模型满足上述条件(1)或(2)中的至少一个时，可以确定第二模型满足预设要求，执行步骤2007，第二模型的训练过程结束；而当第二模型不满足上述条件(1)或(2)中的任意一个时，说明第二模型尚未满足预设要求，需要继续对第二模型进行训练，也就是重新执行步骤2005至2007，直到得到满足预设要求的第二模型。

上述预设阈值可以根据经验进行灵活设置，当预设阈值设置的过大时训练得到的动作识别网络的姿态识别效果可能不够好，而当预设阈值设置的过小时在训练时损失函数的函数值可能难以收敛。

可选地，上述预设阈值的取值范围为[0，0.01]。

具体地，上述预设阈值的取值可以为0.001。

步骤2008、结束。

上述步骤2008表示结束第二模型的训练过程。

在本申请实施例提供了一种训练第二模型的方法，具体的，第二模型利用第一模型输出的二维姿态序列以及由第一模型输出的三维姿态扩展的二维姿态序列，对第二模型进行训练。使用本申请实施例提供的第二模型，可以实现对小样本人物姿态的动作进行精准和快速的识别。具体的，将由第一模型输出的三维姿态扩展的二维姿态序列和第一模型输出的二维姿态序列作为第二模型的训练数据，能够有效提高数据的多样性和模型的泛化性，从而可以提高小样本动作识别场景下动作识别的准确率和识别效率。

图6是本申请实施例的动作识别方法300的示意性流程图。

如图6所示，该方法300包括步骤3001至步骤3004，下面对步骤3001至步骤3004进行详细介绍。

步骤3001、获取待识别人物图像序列。

步骤3002、利用第一模型对待识别人物图像序列进行处理，得到待识别人物图像序列对应的二维姿态序列和二维姿态序列的关键点置信度，二维姿态序列是根据待识别人物图像序列包括的人物的二维热力图得到的。

其中，第一模型包括第三子模型，第一模型可以是通过图3所示的方法100训练得到的。

在本申请实施例中，利用第一模型对待识别人物图像序列进行处理，得到待识别人物图像序列对应的二维姿态序列和二维姿态序列的关键点置信度，具体可以包括：

通过第三子模型对待识别人物图像序列进行处理，得到待识别人物图像序列对应的二维姿态序列和二维姿态序列的关键点置信度。

步骤3003、对二维姿态序列以及二维姿态序列的关键点置信度进行拼接，得到特征图，二维姿态序列的关键点置信度是根据二维姿态序列以及二维姿态序列对应的姿态关键点热力图确定的。

具体的，构建待识别图像对应的特征图的方法与步骤2006的方法相同，此处不再详细赘述。

步骤3004、将特征图输入至第二模型，得到待识别人物图像序列的动作识别结果。

上述步骤3004中的第二模型可以是通过图5所示的方法200训练得到的。

上述步骤3004中的识别结果包括待识别图像包括的目标人物的动作类别、动作识别的准确度、告警标志位、以及可视化结果。

下面结合具体的实验及实验结果对本申请实施例的动作识别网络的动作识别的效果进行说明。

实验设置4种动作类别，例如，这4种动作类别分别为摔倒、攀爬、站立和蹲下。

对每个动作类别均采用40个从网络视频提取的动作序列作为训练样本。对每个动作类别采用50-300个从监控视频提取的动作序列作为测试样本。

通过采用平均准确率(Average_Acc)指标来定量衡量动作识别的准确性。具体的，可以采用下列公式平均准确率(Average_Acc)：

其中，C为动作类别的数量，此处C＝4；N_i为第i个动作类别的序列样本数量；

为第i个动作类别的第j个序列的真实动作类别标签；

为第i个动作类别的第j个序列的预测动作类别；

表示当

和

相等时，

等于1，否则

等于零。

应理解的是，动作识别的准确性越高，对应的平均准确率(Average_Acc)数值将越大。

表1

	训练数据	测试数据	平均准确率
				现有方案1	2D Pose	2D Pose	65.47％
现有方案2	3D Pose(w/o consist)	2D Pose	59.57％
				现有方案3	3D Pose(w/consist)	2D Pose	66.50％
本申请方案	3D Pose(w/consist，w/aug)	2D Pose	72.59％

上述表1示出了不同的方案采用相同测试数据进行测试的结果，其中，测试结果包括平均准确率(Average_Acc)。3D Pose表示训练数据为三维姿态的二维投影数据。2D Pose表示测试数据使用的是二维姿态数据。w/consist表示训练使用的三维姿态数据与测试使用的二维姿态数据具有一致性。w/o consist表示训练使用的三维姿态数据与测试使用的二维姿态数据不具有一致性。w/aug表示训练时使用了三维姿态视角增强数据。

由表1可知，本申请方案的平均准确率(Average_Acc)均高于现有方案，具有较好的识别效果。

上文结合图1至图6对本申请实施例的动作识别模型的训练方法以及动作识别方法进行了详细的介绍，下面结合图7至图10对本申请实施例提供的动作识别模型的训练装置以及动作识别装置进行介绍。

图7是本申请实施例的动作识别模型的训练装置7000的示意性框图。图7所示的动作识别模型的训练装置7000包括获取单元7001、处理单元7002和训练单元7003，

该获取单元7001，用于获取M个训练图像以及该M个训练图像的标注数据，该M个训练图像中的每个训练图像包括人物，该每个训练图像的标注数据包括该每个训练图像中的人物所在的包围框和该每个训练图像中的人物姿态标注信息，M为大于1的整数；

该处理单元7002，通过该第一模型对该M个训练图像进行处理，得到该M个训练图像对应的姿态序列，该M个训练图像对应的姿态序列包括该M个训练图像对应的第一类二维姿态序列和该M个训练图像对应的第二类二维姿态序列，该M个训练图像对应的第一类二维姿态序列是根据该M个训练图像包括的人物的二维热力图得到的，该M个训练图像对应的第二类二维姿态序列是对该M个训练图像对应的第二类三维姿态序列进行二维投影得到的，该M个训练图像对应的第二类三维姿态序列是对该M个训练图像对应的第一类三维姿态序列进行任意或特定角度旋转得到的，该M个训练图像对应的第一类三维姿态序列是根据该M个训练图像包括的人物的三维热力图得到的；

该训练单元7003，通过利用该M个训练图像对应的姿态序列，对该第二模型进行训练，直到该第二模型满足第二预设要求；

该训练单元7003还用于对通过以下步骤进行训练该第一模型：

可选的，在一些实施例中，该第一模型包括第一子模型和第二子模型，该第二子模型包括第三子模型和第四子模型，该处理单元7002还用于：

可选的，在一些实施例中，该训练单元7003还用于对通过以下步骤进行训练该第二模型：

可选的，在一些实施例中，该处理单元7002还用于：

对该第二批训练图像对应的第一类二维姿态序列、该第二批训练图像对应的第二类二维姿态序列以及该第二批训练图像对应的第一类二维姿态序列的关键点置信度进行拼接，得到该特征图。

可选的，在一些实施例中，该第二模型满足第二预设要求，包括：

该第二模型的训练次数大于或者等于第二预设次数；

该第二模型的损失值小于或者等于第二预设阈值。

可选的，在一些实施例中，该第一模型满足第一预设要求，包括：

该第一模型的训练次数大于或者等于第一预设次数；

该第一模型的损失值小于或者等于第一预设阈值。

图8是本申请实施例的动作识别模型的训练装置8000的示意性框图。如图8所示，该动作识别模型的训练装置8000包括：收发器8010、处理器8020和存储器8030。其中，收发器8010、处理器8020和存储器8030之间通过内部连接通路互相通信，传递控制和/或数据信号，该存储器8030用于存储计算机程序，该处理器8010用于从该存储器8030中调用并运行该计算机程序，以控制该收发器8020收发信号。

具体的，收发器8010的功能与图7所示的获取单元7001的具体功能相对应，此处不再赘述。

具体的，处理器8020的功能与图7所示的处理单元7002和训练单元7003的具体功能相对应，此处不再赘述。

图9是本申请实施例的动作识别装置9000的示意性框图。图9所示的动作识别装置9000包括获取单元9001和处理单元9002。

该获取单元9001，用于获取待识别人物图像序列。

该处理单元9002，用于对该待识别人物图像序列进行处理，得到该待识别人物图像序列对应的二维姿态序列和该二维姿态序列的关键点置信度，该二维姿态序列是根据该待识别人物图像序列包括的人物的二维热力图得到的；

该处理单元9002还用于：

将该特征图输入至第二模型，得到该待识别人物图像序列的动作识别结果。

可选的，在一些实施例中，该第一模型包括第三子模型，该处理单元9002还用于：

过该第三子模型对该待识别人物图像序列进行处理，得到该待识别人物图像序列对应的二维姿态序列和该二维姿态序列的关键点置信度通过。

图10是本申请实施例的动作识别装置1000的示意性框图。如图10所示，该动作识别装置1000包括：收发器1010、处理器1020和存储器1030。其中，收发器1010、处理器1020和存储器1030之间通过内部连接通路互相通信，传递控制和/或数据信号，该存储器1030用于存储计算机程序，该处理器1010用于从该存储器1030中调用并运行该计算机程序，以控制该收发器1020收发信号。

具体的，收发器1010的功能与图9所示的获取单元910的具体功能相对应，此处不再赘述。

具体的，处理器1020的功能与图9所示的训练单元920的具体功能相对应，此处不再赘述。

本申请实施例中的芯片可以是编程门阵列(field programmable gate array，FPGA)，可以是专用集成芯片(application specific integrated circuit，ASIC)，还可以是系统芯片(system on chip，SoC)，还可以是中央处理器(central processor unit，CPU)，还可以是网络处理器(network processor，NP)，还可以是数字信号处理电路(digital signal processor，DSP)，还可以是微控制器(micro controller unit，MCU)，还可以是可编程控制器(programmable logic device，PLD)、其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，或其他集成芯片。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应注意，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(directrambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

根据本申请实施例提供的方法，本申请还提供一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码在计算机上运行时，使得该计算机执行图3、图5和图6所示实施例中任意一个实施例的方法。

根据本申请实施例提供的方法，本申请还提供一种计算机可读介质，该计算机可读介质存储有程序代码，当该程序代码在计算机上运行时，使得该计算机执行图3、图5和图6所示实施例中任意一个实施例的方法。

根据本申请实施例提供的方法，本申请还提供一种系统，其包括前述的一个或多个第一模型以及一个或多个第二模型。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种动作识别模型的训练方法，其特征在于，所述动作识别模型包括第一模型和第二模型，所述方法包括：

获取M个训练图像以及所述M个训练图像的标注数据，所述M个训练图像中的每个训练图像包括人物，所述每个训练图像的标注数据包括所述每个训练图像中的人物所在的包围框和所述每个训练图像中的人物姿态标注信息，M为大于1的整数；

通过所述第一模型对所述M个训练图像进行处理，得到所述M个训练图像对应的姿态序列，所述M个训练图像对应的姿态序列包括所述M个训练图像对应的第一类二维姿态序列和所述M个训练图像对应的第二类二维姿态序列，所述M个训练图像对应的第一类二维姿态序列是根据所述M个训练图像包括的人物的二维热力图得到的，所述M个训练图像对应的第二类二维姿态序列是对所述M个训练图像对应的第二类三维姿态序列进行二维投影得到的，所述M个训练图像对应的第二类三维姿态序列是对所述M个训练图像对应的第一类三维姿态序列进行任意或特定角度旋转得到的，所述M个训练图像对应的第一类三维姿态序列是根据所述M个训练图像包括的人物的三维热力图得到的；

通过利用所述M个训练图像对应的姿态序列，对所述第二模型进行训练，直到所述第二模型满足第二预设要求；

其中，所述第一模型通过以下步骤训练得到：

步骤1：对所述每个训练图像中的人物姿态标注信息进行处理，得到所述每个训练图像中的人物姿态标签，所述姿态标签包括二维姿态标签、三维姿态标签和二维姿态关键点置信度热力图标签；

步骤2：对所述第一模型进行初始化处理，以得到所述第一模型的模型参数的初始值；

步骤3：将所述M个训练图像中的第一批训练图像输入到所述第一模型，得到所述第一批训练图像对应的姿态序列，所述第一批训练图像对应的姿态序列包括所述第一批训练图像对应的第一类二维姿态序列、所述第一批训练图像对应的第一类三维姿态序列、所述第一批训练图像对应的共性二维姿态序列以及所述第一批训练图像对应的共性三维姿态序列，所述第一批训练图像对应的第一类二维姿态序列是根据所述第一批训练图像中包括的人物的二维热力图得到的，所述第一批训练图像对应的第一类三维姿态序列是根据所述第一批训练图像中包括的人物的三维热力图得到的，所述共性二维姿态序列是根据所述第一批训练图像对应的二维姿态序列与所述第一批训练图像对应的三维姿态序列中公共的姿态关键点确定的二维姿态序列，所述共性三维姿态序列是根据所述第一批训练图像对应的二维姿态序列与所述第一批训练图像对应的三维姿态序列中公共的姿态关键点确定的三维姿态序列；

步骤4：根据所述第一批训练图像对应的姿态序列，确定所述第一模型的损失值，所述第一模型的损失值是对第一损失值、第二损失值、第三损失值和第四损失值进行加权处理得到的，所述第一损失值是根据所述第一批训练图像对应的第一类二维姿态序列和所述第一批训练图像对应的二维姿态标签确定的，所述第二损失值是根据所述第一批训练图像对应的第一类三维姿态序列和所述第一批训练图像对应的三维姿态标签确定的，所述第三损失值是根据所述第一批训练图像对应的共性二维姿态序列和所述第一批训练图像对应的共性三维姿态序列确定的，所述第四损失值是根据所述第一批训练图像对应的二维姿态关键点置信度热力图标签和所述第一批训练图像对应的二维姿态关键点置信度热力图确定的；

步骤6：根据所述第一模型的损失值对所述第一模型的模型参数进行更新；

重复上述步骤3至步骤5，直到所述第一模型满足第一预设要求。

2.如权利要求1所述的训练方法，其特征在于，所述第一模型包括第一子模型和第二子模型，所述第二子模型包括第三子模型和第四子模型，所述通过所述第一模型对所述M个训练图像进行处理，得到所述M个训练图像对应的姿态序列，包括：

通过所述第三子模型对所述M个训练图像进行处理，得到所述M个训练图像对应的第一类二维姿态序列；

通过所述第四子模型对所述M个训练图像进行处理，得到所述M个训练图像对应的第一类三维姿态序列；

通过所述第一模型对所述M个训练图像对应的第一类三维姿态序列进行任意或特定角度旋转，得到所述M个训练图像对应的第二类二维姿态序列。

3.如权利要求1或2所述的训练方法，其特征在于，所述第二模型通过以下步骤训练得到：

步骤7：对所述第二模型的模型参数进行初始化处理，以得到所述第二模型的模型参数的初始值；

步骤8：对所述M个训练图像中的第二批训练图像对应的二维姿态序列以及所述第二批训练图像对应的第一类二维姿态序列的关键点置信度进行拼接，得到特征图，所述第二批训练图像对应的第一类二维姿态序列的关键点置信度是所述第一模型根据所述第二批训练图像对应的第一类二维姿态序列、所述第二批训练图像对应的第一类三维姿态序列以及所述第二批训练图像对应的第一类二维姿态序列对应的姿态关键点热力图确定的；

步骤9：将所述特征图输入到所述第二模型，得到所述第二模型的损失值；

步骤10：根据所述第二模型的损失值对所述第二模型的模型参数进行更新；

重复上述步骤8至步骤10，直到所述第二模型满足第二预设要求。

4.如权利要求3所述的训练方法，其特征在于，所述对所述M个训练图像中的第二批训练图像对应的二维姿态序列以及所述第二批训练图像对应的第一类二维姿态序列的关键点置信度进行拼接，得到特征图，包括：

对所述第二批训练图像对应的第二类二维姿态序列以及所述第二批训练图像对应的第一类二维姿态序列的关键点置信度进行拼接，得到所述特征图；或者

对所述第二批训练图像对应的第一类二维姿态序列、所述第二批训练图像对应的第二类二维姿态序列以及所述第二批训练图像对应的第一类二维姿态序列的关键点置信度进行拼接，得到所述特征图。

5.如权利要求1-4任一项所述的训练方法，其特征在于，所述第二模型满足第二预设要求，包括：

在满足下列条件中的至少一种时，所述第二模型满足所述第二预设要求：

所述第二模型的训练次数大于或者等于第二预设次数；

所述第二模型的损失值小于或者等于第二预设阈值。

6.如权利要求1-5任一项所述的训练方法，其特征在于，所述第一模型满足第一预设要求，包括：

在满足下列条件中的至少一种时，所述第一模型满足所述第一预设要求：

所述第一模型的训练次数大于或者等于第一预设次数；

所述第一模型的损失值小于或者等于第一预设阈值。

7.一种动作识别方法，其特征在于，所述方法包括：

获取待识别人物图像序列；

利用第一模型对所述待识别人物图像序列进行处理，得到所述待识别人物图像序列对应的二维姿态序列和所述二维姿态序列的关键点置信度，所述二维姿态序列是根据所述待识别人物图像序列包括的人物的二维热力图得到的；

对所述二维姿态序列以及所述二维姿态序列的关键点置信度进行拼接，得到特征图，所述二维姿态序列的关键点置信度是根据所述二维姿态序列以及所述二维姿态序列对应的姿态关键点热力图确定的；

将所述特征图输入至第二模型，得到所述待识别人物图像序列的动作识别结果；

其中，所述第一模型和所述第二模型是根据如权利要求1-6中的任一项所述的训练方法训练得到的。

8.如权利要求7所述的识别方法，其特征在于，所述第一模型包括第三子模型，

所述利用第一模型对待识别人物图像序列进行处理，得到所述待识别人物图像序列对应的二维姿态序列和所述二维姿态序列的关键点置信度，包括：

通过所述第三子模型对所述待识别人物图像序列进行处理，得到所述待识别人物图像序列对应的二维姿态序列和所述二维姿态序列的关键点置信度。

9.一种动作识别模型的训练装置，其特征在于，所述装置用于执行权利要求1-6中任一项所述的训练方法。

10.一种动作识别装置，其特征在于，所述装置用于执行权利要求7或8所述的动作识别方法。

11.一种动作识别模型的训练装置，其特征在于，包括处理器和存储器，所述存储器用于存储程序指令，所述处理器用于调用所述程序指令来执行权利要求1-6中任一项所述的训练方法。

12.一种动作识别装置，其特征在于，包括处理器和存储器，所述存储器用于存储程序指令，所述处理器用于调用所述程序指令来执行权利要求7或8所述的动作识别方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行如权利要求1-6中任一项所述的训练方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行如权利要求7或8所述的动作识别方法。

15.一种芯片，其特征在于，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以执行如权利要求1-6中任一项所述的训练方法。

16.一种芯片，其特征在于，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以执行如权利要求7或8所述的动作识别方法。