CN112926462B

CN112926462B - 训练方法、装置、动作识别方法、装置及电子设备

Info

Publication number: CN112926462B
Application number: CN202110227119.2A
Authority: CN
Inventors: 张发恩; 秦树鑫
Original assignee: Innovation Qizhi Xi'an Technology Co ltd
Current assignee: Innovation Qizhi Xi'an Technology Co ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2023-02-07
Anticipated expiration: 2041-03-01
Also published as: CN112926462A

Abstract

本发明涉及一种训练方法、装置、动作识别方法、装置及电子设备，在对待识别图像进行动作识别时，先对待识别图像进行第一次特征提取，得到特征图，然后将特征图输入到用于检测待识别图像中的对象的轮廓特征的轮廓特征提取网络，得到轮廓特征图，然后对轮廓特征图进行解码，得到轮廓特征向量，并将轮廓特征向量通过分类模型进行分类，得到用于表征动作类别的分类结果。由于在上述过程中，采用的是对关键点遮挡不敏感的轮廓特征提取网络，因此，即使是面对对象存在遮挡的待识别图像，轮廓特征提取网络也具有较强的抗干扰性，输出的轮廓特征图的可信度较高，进而有利于提高后续基于轮廓特征图得到的轮廓特征向量进行动作识别时的识别准确度。

Description

训练方法、装置、动作识别方法、装置及电子设备

技术领域

本申请属于图像处理领域，具体涉及一种训练方法、装置、动作识别方法、装置及电子设备。

背景技术

动作识别技术有着广泛的应用场景，例如用于判断人的行为属性(比如判断人的姿态是站立、坐姿、跌倒等)，用于判断动物或其他可变形物体(如机器人、机械臂等)的行为姿态等。

就目前而言，主要基于传感器或基于视觉来实现动作识别。其中，相较于传感器的方式，通过视觉来进行动作识别具有成本低、无需直接接触(不需要安装传感器或实物标签等)等优势。

在实际应用中，当通过视觉来进行动作识别时，需要先训练出一个神经网络模型来辅助动作识别。在传统的基于视觉的动作识别方案中，需要神经网络模型检测出识别对象的全部关键点。以识别人体的动作为例，需要神经网络模型检测出人体骨架的21关键点，在此基础上，利用这些关键点坐标的位置信息，实现动作识别。然而，由于在应用检测关键点的模型时，模型的输入图像可能存在相互遮挡的情况，导致最后得到的关键点位置的误差较大，进而影响后续的动作识别准确度，也就是说，现有技术中的训练方式所得到的用于辅助动作识别的模型的抗干扰性较弱，不利于提高后续基于其结果进行动作识别的准确性。

发明内容

有鉴于此，本申请的目的在于提供一种训练方法、装置、动作识别方法、装置及电子设备，可以提高训练得到的轮廓特征提取网络的抗干扰性，进而提高后续通过该轮廓特征提取网络进行动作识别时的准确度。

本申请的实施例是这样实现的：

第一方面，本申请实施例提供一种训练方法，用于训练轮廓特征提取网络，所述方法包括：获取包括多个训练样本的训练集，所述训练样本的训练标签包括：对象的中心点、所述对象的轮廓线、以所述中心点为起点且向所述轮廓线发散出N条射线后与所述轮廓线相交形成的N个轮廓关键点，相邻两条射线之间的角度差为A，且N＝360/A；将所述训练样本输入到基础网络模型进行训练，直至所述基础网络模型收敛，得到所述轮廓特征提取网络；其中，所述轮廓特征提取网络的输出为与其输入特征图中的对象对应的轮廓特征图，所述轮廓特征图包括：与所述输入特征图中的对象的N个轮廓关键点一一对应的N个关键点通道、与所述输入特征图中的对象的中心点对应的中心点通道，以及与所述N个关键点通道一一对应的，用于表征该关键点通道所指向的轮廓关键点与所述输入特征图中的对象的中心点之间的距离的距离回归通道。

由于在上述训练轮廓特征提取网络的过程中，对于轮廓特征提取网络的训练样本而言，并不需要标注训练样本中所有关键点的位置，从而降到了对训练样本的标注要求，相应的，相较于传统训练检测全部关键点的神经网络模型，还可以降低工作人员的标注工作量，以及降低训练过程中的训练成本，提高训练速度。此外，由于轮廓特征提取网络最终的输出是对象的轮廓特征图，且轮廓对于小部分遮挡并不是特别敏感，因此，对于输入特征图中的对象存在遮挡的情况，轮廓特征提取网络具有较好的适应性，也就是说，轮廓特征提取网络具有较强的抗干扰性，输出的结果的可信度较高，进而有利于提高后续基于轮廓特征提取网络的输出结果进行动作识别时的识别准确度。

结合第一方面实施例，在一种可能的实施方式中，当在所述输入特征图中包括多个对象时，所述轮廓特征提取网络的输出为与每个对象对应的轮廓特征图。也就是说，通过上述训练方法训练得到的轮廓特征提取网络具备同时识别多个对象的轮廓特征图的功能，可以提高识别效率。

第二方面，本申请实施例提供一种动作识别方法，所述方法包括：对获取到的待识别图像进行特征提取，得到对应的特征图；将所述特征图输入到第一方面任一实施方式所述的方法训练得到的轮廓特征提取网络，输出得到轮廓特征图；对所述轮廓特征图进行解码，得到轮廓特征向量；将所述轮廓特征向量输入到预先训练好的分类模型进行分类，得到用于表征动作类别的分类结果。由于在上述过程中，采用的是对关键点遮挡不敏感的轮廓特征提取网络，因此，即使是面对对象存在遮挡的待识别图像，轮廓特征提取网络也具有较强的抗干扰性，输出的轮廓特征图的可信度较高，进而有利于提高后续基于轮廓特征图得到的轮廓特征向量进行动作识别时的识别准确度。

结合第二方面实施例，在一种可能的实施方式中，所述轮廓特征图包括多个通道，每个通道对应一个热力图，所述对所述轮廓特征图进行解码，得到轮廓特征向量，包括：从所述多个通道中，确定出用于表征所述特征图中的对象的中心点的中心点通道、用于表征所述特征图中的对象的轮廓关键点的关键点通道，以及与每个所述关键点通道一一对应的距离回归通道；根据与所述中心点通道对应的热力图以及与每个所述关键点通道对应的热力图，确定出所述中心点的坐标以及每个所述关键点通道所指向的轮廓关键点的坐标；针对每个所述关键点通道，根据该关键点通道所指向的轮廓关键点的坐标以及所述中心点的坐标，从与该关键点通道对应的距离回归通道所对应的热力图中，确定出该关键点通道所指向的轮廓关键点与所述中心点之间的距离；根据各个轮廓关键点与所述中心点之间的距离，形成所述轮廓特征向量。

结合第二方面实施例，在一种可能的实施方式中，所述根据与所述中心点通道对应的热力图以及与每个所述关键点通道对应的热力图，确定出所述中心点的坐标以及每个所述关键点通道所指向的轮廓关键点的坐标，包括：将与所述中心点通道对应的热力图中，极大值对应的位置的坐标确定为所述中心点的坐标；将与所述该关键点通道对应的热力图中，极大值对应的位置的坐标确定为所述该关键点通道所指向的轮廓关键点的坐标。

结合第二方面实施例，在一种可能的实施方式中，所述根据该关键点通道所指向的轮廓关键点的坐标以及所述中心点的坐标，从与该关键点通道对应的距离回归通道所对应的热力图中，确定出该关键点通道所指向的轮廓关键点与所述中心点之间的距离，包括：获取与该关键点通道对应的距离回归通道对应的热力图中，与该关键点通道所指向的轮廓关键点的坐标处的第一取值以及所述中心点的坐标处的第二取值；在确定所述第一取值大于所述第二取值时，确定所述第一取值为所述该关键点通道所指向的轮廓关键点与所述中心点之间的距离。

结合第二方面实施例，在一种可能的实施方式中，预先为每个关键点通道设置对应的角度信息，所述根据各个轮廓关键点与所述中心点之间的距离，形成所述轮廓特征向量，包括：根据各个关键点通道所对应的角度信息大小关系，对各个轮廓关键点与所述中心点之间的距离进行排序，形成所述轮廓特征向量。通过这种方式，可以确定检测出的轮廓关键点之间的次序，有利于提高各个轮廓关键点的准确定位。

结合第二方面实施例，在一种可能的实施方式中，所述待识别图像为单帧图像，或者所述待识别图像为包括多帧图像的图像序列。也就是说，在本申请实施例中，可以识别单帧图片所包括的动作，也可以识别多帧图像序列所包括的动作，增加了本方案的适用范围。

结合第二方面实施例，在一种可能的实施方式中，当所述待识别图像为单帧图像时，所述分类模型为全连接网络；当所述待识别图像为图像序列时，所述分类模型为循环神经网络。

第三方面，本申请实施例提供一种训练装置，用于训练轮廓特征提取网络，所述装置包括：获取模块、训练模块。

获取模块，用于获取包括多个训练样本的训练集，所述训练样本的训练标签包括：对象的中心点、所述对象的轮廓线、以所述中心点为起点且向所述轮廓线发散出N条射线后与所述轮廓线相交形成的N个轮廓关键点，相邻两条射线之间的角度差为A，且N＝360/A；

训练模块，用于将所述训练样本输入到基础网络模型进行训练，直至所述基础网络模型收敛，得到所述轮廓特征提取网络；

其中，所述轮廓特征提取网络的输出为与其输入特征图中的对象对应的轮廓特征图，所述轮廓特征图包括：与所述输入特征图中的对象的N个轮廓关键点一一对应的N个通道、与所述输入特征图中的对象的中心点对应的一个通道以及与所述N个通道一一对应的，用于表征该通道所指向的轮廓关键点与所述输入特征图中的对象的中心点之间的距离的距离回归通道。

结合第三方面实施例，在一种可能的实施方式中，当在所述输入特征图中包括多个对象时，所述轮廓特征提取网络的输出为与每个对象对应的轮廓特征图。

第四方面，本申请实施例提供一种动作识别装置，所述装置包括：特征提取模块、解码模块以及分类模块。

特征提取模块，用于对获取到的待识别图像进行特征提取，得到对应的特征图；

所述特征提取模块，还用于将所述特征图输入到通过上述第一方面任一实施方式所述的方法训练得到的轮廓特征提取网络，输出得到轮廓特征图；

解码模块，用于对所述轮廓特征图进行解码，得到轮廓特征向量；

分类模块，用于将所述轮廓特征向量输入到预先训练好的分类模型进行分类，得到用于表征动作类别的分类结果。

结合第四方面实施例，在一种可能的实施方式中，所述轮廓特征图包括多个通道，每个通道对应一个热力图，所述解码模块，用于从所述多个通道中，确定出用于表征所述特征图中的对象的中心点的中心点通道、用于表征所述特征图中的对象的轮廓关键点的关键点通道，以及与每个所述关键点通道一一对应的距离回归通道；根据与所述中心点通道对应的热力图以及与每个所述关键点通道对应的热力图，确定出所述中心点的坐标以及每个所述关键点通道所指向的轮廓关键点的坐标；针对每个所述关键点通道，根据该关键点通道所指向的轮廓关键点的坐标以及所述中心点的坐标，从与该关键点通道对应的距离回归通道所对应的热力图中，确定出该关键点通道所指向的轮廓关键点与所述中心点之间的距离；根据各个轮廓关键点与所述中心点之间的距离，形成所述轮廓特征向量。

结合第四方面实施例，在一种可能的实施方式中，所述解码模块，用于将与所述中心点通道对应的热力图中，极大值对应的位置的坐标确定为所述中心点的坐标；将与所述该关键点通道对应的热力图中，极大值对应的位置的坐标确定为所述该关键点通道所指向的轮廓关键点的坐标。

结合第四方面实施例，在一种可能的实施方式中，所述解码模块，用于获取与该关键点通道对应的距离回归通道对应的热力图中，与该关键点通道所指向的轮廓关键点的坐标处的第一取值以及所述中心点的坐标处的第二取值；在确定所述第一取值大于所述第二取值时，确定所述第一取值为所述该关键点通道所指向的轮廓关键点与所述中心点之间的距离。

结合第四方面实施例，在一种可能的实施方式中，预先为每个关键点通道设置对应的角度信息，所述解码模块，用于根据各个关键点通道所对应的角度信息大小关系，对各个轮廓关键点与所述中心点之间的距离进行排序，形成所述轮廓特征向量。

结合第四方面实施例，在一种可能的实施方式中，所述待识别图像为单帧图像，或者所述待识别图像为包括多帧图像的图像序列。

结合第四方面实施例，在一种可能的实施方式中，当所述待识别图像为单帧图像时，所述分类模型为全连接网络；当所述待识别图像为图像序列时，所述分类模型为循环神经网络。

第五方面，本申请实施例还提供一种电子设备，包括：存储器和处理器，所述存储器和所述处理器连接；所述存储器用于存储程序；所述处理器调用存储于所述存储器中的程序，以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法，或者上述第二方面实施例和/或结合第二方面实施例的任一种可能的实施方式提供的方法。

第六方面，本申请实施例还提供一种非易失性计算机可读取存储介质(以下简称计算机可读存储介质)，其上存储有计算机程序，所述计算机程序被计算机运行时执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法，或者上述第二方面实施例和/或结合第二方面实施例的任一种可能的实施方式提供的方法。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出本申请实施例提供的动作识别方法的流程图。

图2示出本申请实施例提供的训练方法的流程图。

图3示出本申请实施例提供的一种训练样本的标签示意图。

图4示出本申请实施例提供的训练装置的结构框图。

图5示出本申请实施例提供的动作识别装置的结构框图。

图6示出本申请实施例提供的一种电子设备的结构示意图。

图标：100-电子设备；110-处理器；120-存储器；400-训练装置；410-获取模块；420-训练模块；500-动作识别装置；510-特征提取模块；520-解码模块；530-分类模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再者，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

此外，针对现有技术中的用于进行动作识别的轮廓特征提取网络的训练过程所存在的缺陷(导致训练成本较高，且训练得到的轮廓特征提取网络的抗干扰性较低)是申请人在经过实践并仔细研究后得出的结果，因此，上述缺陷的发现过程以及在下文中本申请实施例针对上述缺陷所提出的解决方案，都应该被认定为申请人对本申请做出的贡献。

为了解决上述问题，本申请实施例提供一种训练方法、装置、动作识别方法、装置及电子设备，有利于降低训练成本，且提高训练得到的轮廓特征提取网络的抗干扰性，进而提高后续通过该轮廓特征提取网络进行动作识别时的准确度。

该技术可采用相应的软件、硬件以及软硬结合的方式实现。以下对本申请实施例进行详细介绍。

在本申请实施例中，可以通过对图像进行识别，从而确定图像中所包括的对象(例如人、动物、机器人、机械臂等)当前正在执行的动作。

下面将以对象为人为例，对本申请实施例所提供的动作识别方法进行介绍。可以理解，当对象为其他类别时，可以参照对象为人时的实施例。

具体的，请参照图1，动作识别方法可以包括以下步骤。

步骤S110：对获取到的待识别图像进行特征提取，得到对应的特征图。

在本申请实施例中，待识别图像可是单帧图像，也可以是包括多帧图像的图像序列。

在获取到待识别图像后，可以将待识别图像输入基础特征提取网络进行第一次特征提取，从而得到对应的特征图。

当然，值得指出的是，若待识别图像为单帧图像，那么对应的特征图为一张特征图；若待识别图像为图像序列，那么对应的特征图为由多个特征图组成的特征图序列。

其中，基础特征提取网络可以是常规的卷积神经网络，该常规的卷积神经网络的输出为单一尺度的特征图，且该单一尺度的特征图即为步骤S120中的轮廓特征提取网络的输入图像。

在一些实施方式中，基础特征提取网络还可以是包括主干网络以及多尺度提取网络的组合网络，该组合网络的输出为不同尺度的特征图。在这种实施方式下，还需要对组合网络输出的不同尺度的特征图进行特征融合，得到融合特征图。该融合特征图即为步骤S120中的轮廓特征提取网络的输入图像。

其中，该组合网络的主网络可以是对resblock、denseblock等通用卷积模块进行串联组合所形成的网络，多尺度提取网络可以采用已有的FPN、darknet等特征金字塔提取网络。

通过组合网络对待识别图像进行特征提取后所得到的不同尺度的特征图需要满足尺度逐步缩小、深度逐步放大的要求。例如组合网络需要输出3个不同尺度的特征图，且待识别图像的尺度为(w，h，3)。当把待识别图像输入到组合网络后，组合网络输出的特征图的尺度依次为：(w/2，h/2，n)、(w/4，h/4，n×2)、(w/8，h/8，n×4)。

当对不同尺度的特征图进行特征融合时，融合方法可以是从不同尺度的特征图中的最小尺度特征图开始，按照不同尺度的特征图的生成逆顺序，将各个特征图上采样后与前一尺度的特征图进行融合，最终得到融合特征图。

步骤S120：将所述特征图输入到轮廓特征提取网络，输出得到轮廓特征图。

其中，值得指出的是，在本申请实施例中，需要预先训练出一个可以对其输入特征图中所包括的对象进行轮廓特征提取的网络模型，即轮廓特征提取网络，从而对动作识别起到辅助作用。

当把特征图作为输入特征输入到轮廓特征提取网络后，可以输出特征图中所包括的对象的轮廓特征图。

此外，值得指出的是，当特征图中包括多个对象时，轮廓特征提取网络的输出为与每个对象对应的轮廓特征图。也就是说，本申请实施例中的轮廓特征提取网络可以同时对多对象进行检测。

下面将针对训练轮廓特征提取网络的过程进行介绍。

请参照图2，训练轮廓特征提取网络的训练方法可以包括以下步骤。

步骤S210：获取包括多个训练样本的训练集。

在本申请中，每个训练样本为尺度一致的特征图。当然，由于前述基础特征提取网络最终所输出的特征图是轮廓特征提取网络的输入图像，即输入特征图，因此，训练样本的尺度需要与前述基础特征提取网络最终所输出的特征图的尺度一致。

其中，每个训练样本预先被标注训练标签。

请参照图3，每个训练样本的训练标签包括：对象(人体)的中心点、对象(人体)的轮廓线、以中心点为起点且向轮廓线发散出N条射线后与轮廓线相交形成的N个轮廓关键点。

其中，对象的中心点指的是对象在训练样本所覆盖的区域的物理中心点位置坐标；每两条相邻射线之间的角度差为A，且N＝360/A。

此外，为了使得轮廓特征提取网络所输出的轮廓特征图可以指示轮廓特征图所包括的N个轮廓关键点之间的次序，在一些实施方式中，还可以标记每个轮廓关键点的角度，从而使得训练标签还包括各个轮廓关键点的角度信息。

标记轮廓关键点的角度的过程如下。

可选的，可以预先针对每个训练样本确定出一个起始射线。当然，针对所有训练样本而言，其起始射线的确定规则需要一致。

例如，在一些实施方式中，可以将穿过训练样本的中心点，且与水平线平行的射线确定为起始射线；在一些实施方式中，可以将穿过训练样本的中心点，且与水平线垂直的射线确定为起始射线。

在确定出起始射线后，针对每个训练样本而言，当需要标定其N个轮廓关键点时，以起始射线与轮廓线的交点为起始轮廓关键点，起始轮廓关键点的角度为0度；后续朝着预设方向(顺时针方向或逆时针方向)，且按照每次旋转A角度的方式，将起始射线旋转N-1次(N＝360/A)，得到N-1条以中心点为起点的射线，以及该N-1条射线与轮廓线相交所形成的N-1个轮廓关键点，且上述N-1个轮廓关键点与上述N-1条射线一一对应。

其中，上述N-1个轮廓关键点中的每个轮廓关键点的角度为与其对应的射线相较于起始射线的角度。

步骤S220：将所述训练样本输入到基础网络模型进行训练，直至所述基础网络模型收敛，得到所述轮廓特征提取网络。

其中，基础网络模型是一个无锚点(anchor-free)的检测网络，从而使得最终训练好的轮廓特征提取网络在实际应用过程中，不需要对预置的检测框，因此，在训练轮廓特征提取网络过程中，不需要进行较为耗时的nms(非极大抑制)处理过程，所以总体上，速度较快。

当训练得到轮廓特征提取网络后，轮廓特征提取网络的输出为与其输入特征图中所包括的对象对应的轮廓特征图。

其中，轮廓特征图包括：与输入特征图中的对象的N个轮廓关键点一一对应的N个关键点通道、与输入特征图中的对象的中心点对应的中心点通道，以及与N个关键点通道一一对应的，用于表征该关键点通道所指向的轮廓关键点与输入特征图中的对象的中心点之间的距离的距离回归通道。

当然，值得指出的是，后台工作人员在设计轮廓特征提取网络时，可以预先指定轮廓特征提取网络所输出的轮廓特征图中，哪些通道用于表征关键点通道，哪些通道用于表征中心点通道，以及哪些通道用于表征距离回归通道。

每个关键点通道用于表征自身对应的轮廓关键点的坐标，中心点通道用于表征中心点的坐标。

当然，当训练标签还包括各个轮廓关键点的角度信息时，每个关键点通道还用于表征自身对应的轮廓关键点的角度信息。

此外，值得指出的是，由于上述轮廓特征提取网络最终得到的轮廓特征图采用的是多通道归一化的表示方法，对于不同尺寸大小的对象(例如远近不同的对象)且对象的动作相同时，用归一化的方式所呈现出的轮廓特征图基本相同，因此，因此，轮廓特征提取网络还可以适应不同大小的对象。

步骤S130：对所述轮廓特征图进行解码，得到轮廓特征向量。

前文提及，轮廓特征提取网络对特征图进行特征提取后，最终输出得到包括多个通道的轮廓特征图。多个通道中，包括N个关键点通道、1个中心点通道，以及与N个关键点通道一一对应的距离回归通道。

其中，每个通道对应一个热力图。

在本申请实施例中，可以对轮廓特征图进行解码，从而得到对象中各个轮廓关键点的信息以及中心点的信息，并根据各个轮廓关键点的信息以及中心点的信息确定出对象的轮廓特征向量。

其中，轮廓关键点的信息包括轮廓关键点的位置以及轮廓关键点距离中心点的距离；中心点的信息包括中心点的位置。

对于每个关键点通道而言，可以通过与该关键点通道对应的热力图，确定对象中对应的轮廓关键点的位置；可以通过与中心点通道对应的热力图，确定对象中中心点的位置；对于每个关键点通道而言，还可以通过与该关键点通道对应的距离回归通道所对应的热力图，确定该关键点通道对应的轮廓关键点距离中心点的距离。

下面将针对解码的过程进行介绍。

前文提及到，可以预先指定轮廓特征图中，哪些通道用于表征关键点通道，哪些通道用于表征中心点通道，以及哪些通道用于表征距离回归通道，即预先存在指定信息。

在这种实施方式下，可以先根据预先确定的指定信息，从轮廓特征图所包括的多个通道中，确定出用于表征所述特征图中的对象的中心点的中心点通道、用于表征所述特征图中的对象的轮廓关键点的关键点通道，以及与每个关键点通道一一对应的距离回归通道。

后续，可以根据与中心点通道对应的热力图以及与每个关键点通道对应的热力图，确定出中心点的坐标以及每个关键点通道所指向的轮廓关键点的坐标。

在与关键点通道对应的热力图中，热力图中的最亮点所在的位置代表该位置为轮廓关键点的概率最大，在与中心点通道对应的热力图中，热力图中的最亮点所在的位置代表该位置为中心点的概率最大。因此，可以将与中心点通道对应的热力图中，极大值对应的位置的坐标确定为中心点的坐标；将与每个关键点通道对应的热力图中，极大值对应的位置的坐标确定为对应关键点通道所指向的轮廓关键点的坐标。

在得到各个轮廓关键点的坐标以及中心点的坐标后，针对每个关键点通道，可以根据该关键点通道所指向的轮廓关键点的坐标以及中心点的坐标，从与该关键点通道对应的距离回归通道所对应的热力图中，确定出该关键点通道所指向的轮廓关键点与中心点之间的距离。

可选的，针对每个关键点通道，可以获取与该关键点通道对应的距离回归通道对应的热力图中，与该关键点通道所指向的轮廓关键点的坐标处的第一取值以及中心点的坐标处的第二取值。其中，在确定第一取值大于第二取值时，确定所述第一取值为该关键点通道所指向的轮廓关键点与中心点之间的距离，否则将第二取值确定为该关键点通道所指向的轮廓关键点与中心点之间的距离。

在得到各个轮廓关键点与中心点之间的距离后，即可以形成轮廓特征向量F。

其中，轮廓特征向量F包括N个标量，分别为f1、f2、······、fn，fn＝{(xn,yn)，dn}，且n的最大取值为N。(xn,yn)代表轮廓特征向量F中第n个标量所代表的轮廓关键点的坐标，dn代表轮廓特征向量F中第n个标量所代表的轮廓关键点与中心点之间的距离。

此外，在一些实施方式中，当轮廓特征图可以指示轮廓特征图所包括的N个轮廓关键点之间的次序，每个关键点通道还用于表征自身对应的轮廓关键点的角度信息时，在对轮廓特征图进行解码的过程中，还可以获取到各个轮廓关键点的角度信息。在这种实施方式下，当在后续形成轮廓特征向量F时，F中各个标量之间可以按照自身对应的轮廓关键点的角度信息的大小关系进行排序，从而使得得到的轮廓特征向量F可以表征各个轮廓关键点在轮廓线上的次序。

当然，在一些实施方式中，在形成轮廓特征向量F之前，还可以对上述各个轮廓关键点与中心点之间的距离进行归一化处理。

步骤S140：将所述轮廓特征向量输入到预先训练好的分类模型进行分类，得到用于表征动作类别的分类结果。

可选的，当待识别图像为单帧图像时，分类模型可以是较为常规的全连接网络。在全连接网络中，以轮廓特征向量为输入，通过2-4层全连接层进行处理后，输出分类节点。

其中，输出分类节点的个数与动作类别相关。假设需要识别待识别图像中的动作为m个动作类别中的哪个动作类别，相应的，即存在m个输出分类节点，每个输出分类节点用于表征待识别图像中的动作为与自身对应的动作的概率。

可选的，当待识别图像为图像序列时，分类模型可以是较为常规的循环神经网络(例如RNN、LSTM等)。

其中，与全连接网络类似的，循环神经网络的输出分类节点的个数也与动作类别相关。

本申请实施例所提供的一种动作识别方法，在对待识别图像进行识别时，先对待识别图像进行第一次特征提取，得到特征图，然后将特征图输入到用于检测待识别图像中的对象的轮廓特征的轮廓特征提取网络，得到轮廓特征图，然后对轮廓特征图进行解码，得到轮廓特征向量，并将轮廓特征向量通过分类模型进行分类，得到用于表征动作类别的分类结果。由于在上述过程中，采用的是对关键点遮挡不敏感的轮廓特征提取网络，因此，即使是面对对象存在遮挡的待识别图像，轮廓特征提取网络也具有较强的抗干扰性，输出的轮廓特征图的可信度较高，进而有利于提高后续基于轮廓特征图得到的轮廓特征向量进行动作识别时的识别准确度。

请参照图4，本申请实施例还提供一种训练装置400，包括：获取模块410以及训练模块420。

获取模块410，用于获取包括多个训练样本的训练集，所述训练样本的训练标签包括：对象的中心点、所述对象的轮廓线、以所述中心点为起点且向所述轮廓线发散出N条射线后与所述轮廓线相交形成的N个轮廓关键点，相邻两条射线之间的角度差为A，且N＝360/A；

训练模块420，用于将所述训练样本输入到基础网络模型进行训练，直至所述基础网络模型收敛，得到所述轮廓特征提取网络；

在一种可能的实施方式中，当在所述输入特征图中包括多个对象时，所述轮廓特征提取网络的输出为与每个对象对应的轮廓特征图。

本申请实施例所提供的训练装置400，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

请参照图5，本申请实施例还提供一种动作识别装置500，动作识别装置500可以包括：特征提取模块510、解码模块520以及分类模块530。

特征提取模块510，用于对获取到的待识别图像进行特征提取，得到对应的特征图；

所述特征提取模块510，还用于将所述特征图输入到通过上述第一方面任一实施方式所述的方法训练得到的轮廓特征提取网络，输出得到轮廓特征图；

解码模块520，用于对所述轮廓特征图进行解码，得到轮廓特征向量；

分类模块530，用于将所述轮廓特征向量输入到预先训练好的分类模型进行分类，得到用于表征动作类别的分类结果。

在一种可能的实施方式中，所述轮廓特征图包括多个通道，每个通道对应一个热力图，所述解码模块520，用于从所述多个通道中，确定出用于表征所述特征图中的对象的中心点的中心点通道、用于表征所述特征图中的对象的轮廓关键点的关键点通道，以及与每个所述关键点通道一一对应的距离回归通道；根据与所述中心点通道对应的热力图以及与每个所述关键点通道对应的热力图，确定出所述中心点的坐标以及每个所述关键点通道所指向的轮廓关键点的坐标；针对每个所述关键点通道，根据该关键点通道所指向的轮廓关键点的坐标以及所述中心点的坐标，从与该关键点通道对应的距离回归通道所对应的热力图中，确定出该关键点通道所指向的轮廓关键点与所述中心点之间的距离；根据各个轮廓关键点与所述中心点之间的距离，形成所述轮廓特征向量。

在一种可能的实施方式中，所述解码模块520，用于将与所述中心点通道对应的热力图中，极大值对应的位置的坐标确定为所述中心点的坐标；将与所述该关键点通道对应的热力图中，极大值对应的位置的坐标确定为所述该关键点通道所指向的轮廓关键点的坐标。

在一种可能的实施方式中，所述解码模块520，用于获取与该关键点通道对应的距离回归通道对应的热力图中，与该关键点通道所指向的轮廓关键点的坐标处的第一取值以及所述中心点的坐标处的第二取值；在确定所述第一取值大于所述第二取值时，确定所述第一取值为所述该关键点通道所指向的轮廓关键点与所述中心点之间的距离。

在一种可能的实施方式中，预先为每个关键点通道设置对应的角度信息，所述解码模块520，用于根据各个关键点通道所对应的角度信息大小关系，对各个轮廓关键点与所述中心点之间的距离进行排序，形成所述轮廓特征向量。

在一种可能的实施方式中，所述待识别图像为单帧图像，或者所述待识别图像为包括多帧图像的图像序列。

在一种可能的实施方式中，当所述待识别图像为单帧图像时，所述分类模型为全连接网络；当所述待识别图像为图像序列时，所述分类模型为循环神经网络。

本申请实施例所提供的动作识别装置500，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被计算机运行时，执行如上述的动作识别方法所包含的步骤。

此外，请参照图6，本申请实施例还提供一种用于实现本申请实施例的训练方法、装置和/或动作识别方法、装置的电子设备100。

可选的，电子设备100，可以是，但不限于个人电脑(Personal computer，PC)、智能手机、平板电脑、移动上网设备(Mobile Internet Device，MID)、个人数字助理、服务器等设备。

其中，电子设备100可以包括：处理器110、存储器120。

应当注意，图6所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备100也可以具有其他组件和结构。

处理器110、存储器120以及其他可能出现于电子设备100的组件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，处理器110、存储器120以及其他可能出现的组件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器120用于存储程序，例如存储有前文出现的动作识别方法或训练方法对应的程序，或者前文出现的动作识别装置或训练装置。可选的，当存储器120内存储有动作识别装置或训练装置时，动作识别装置或训练装置包括至少一个可以以软件或固件(firmware)的形式存储于存储器120中的软件功能模块。

可选的，动作识别装置或训练装置所包括软件功能模块也可以固化在电子设备100的操作系统(operating system，OS)中。

处理器110用于执行存储器120中存储的可执行模块，例如动作识别装置或训练装置包括的软件功能模块或计算机程序。当处理器110在接收到执行指令后，可以执行计算机程序，例如执行：获取包括多个训练样本的训练集，所述训练样本的训练标签包括：对象的中心点、所述对象的轮廓线、以所述中心点为起点且向所述轮廓线发散出N条射线后与所述轮廓线相交形成的N个轮廓关键点，相邻两条射线之间的角度差为A，且N＝360/A；将所述训练样本输入到基础网络模型进行训练，直至所述基础网络模型收敛，得到所述轮廓特征提取网络；其中，所述轮廓特征提取网络的输出为与其输入特征图中的对象对应的轮廓特征图，所述轮廓特征图包括：与所述输入特征图中的对象的N个轮廓关键点一一对应的N个关键点通道、与所述输入特征图中的对象的中心点对应的中心点通道，以及与所述N个关键点通道一一对应的，用于表征该关键点通道所指向的轮廓关键点与所述输入特征图中的对象的中心点之间的距离的距离回归通道。

或者，处理器110执行：对获取到的待识别图像进行特征提取，得到对应的特征图；将所述特征图输入到通过上述训练方法训练得到的轮廓特征提取网络，输出得到轮廓特征图；对所述轮廓特征图进行解码，得到轮廓特征向量；将所述轮廓特征向量输入到预先训练好的分类模型进行分类，得到用于表征动作类别的分类结果。

当然，本申请任一实施例所揭示的方法都可以应用于处理器110中，或者由处理器110实现。

综上所述，本发明实施例提出的训练方法、装置、动作识别方法、装置及电子设备，在对待识别图像进行动作识别时，先对待识别图像进行第一次特征提取，得到特征图，然后将特征图输入到用于检测待识别图像中的对象的轮廓特征的轮廓特征提取网络，得到轮廓特征图，然后对轮廓特征图进行解码，得到轮廓特征向量，并将轮廓特征向量通过分类模型进行分类，得到用于表征动作类别的分类结果。由于在上述过程中，采用的是对关键点遮挡不敏感的轮廓特征提取网络，因此，即使是面对对象存在遮挡的待识别图像，轮廓特征提取网络也具有较强的抗干扰性，输出的轮廓特征图的可信度较高，进而有利于提高后续基于轮廓特征图得到的轮廓特征向量进行动作识别时的识别准确度。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，笔记本电脑,服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种训练方法，其特征在于，用于训练轮廓特征提取网络，所述方法包括：

获取包括多个训练样本的训练集，所述训练样本的训练标签包括：对象的中心点、所述对象的轮廓线、以所述中心点为起点且向所述轮廓线发散出N条射线后与所述轮廓线相交形成的N个轮廓关键点，相邻两条射线之间的角度差为A，且N＝360/A；

将所述训练样本输入到基础网络模型进行训练，直至所述基础网络模型收敛，得到所述轮廓特征提取网络；

其中，所述轮廓特征提取网络的输出为与其输入特征图中的对象对应的轮廓特征图，所述轮廓特征图包括：与所述输入特征图中的对象的N个轮廓关键点一一对应的N个关键点通道、与所述输入特征图中的对象的中心点对应的中心点通道，以及与所述N个关键点通道一一对应的，用于表征该关键点通道所指向的轮廓关键点与所述输入特征图中的对象的中心点之间的距离回归通道。

2.根据权利要求1所述的方法，其特征在于，当在所述输入特征图中包括多个对象时，所述轮廓特征提取网络的输出为与每个对象对应的轮廓特征图。

3.一种动作识别方法，其特征在于，所述方法包括：

对获取到的待识别图像进行特征提取，得到对应的特征图；

将所述特征图输入到通过权利要求1或2所述的方法训练得到的轮廓特征提取网络，输出得到轮廓特征图；

对所述轮廓特征图进行解码，得到轮廓特征向量；

将所述轮廓特征向量输入到预先训练好的分类模型进行分类，得到用于表征动作类别的分类结果。

4.根据权利要求3所述的方法，其特征在于，所述轮廓特征图包括多个通道，每个通道对应一个热力图，所述对所述轮廓特征图进行解码，得到轮廓特征向量，包括：

从所述多个通道中，确定出用于表征所述特征图中的对象的中心点的中心点通道、用于表征所述特征图中的对象的轮廓关键点的关键点通道，以及与每个所述关键点通道一一对应的距离回归通道；

根据与所述中心点通道对应的热力图以及与每个所述关键点通道对应的热力图，确定出所述中心点的坐标以及每个所述关键点通道所指向的轮廓关键点的坐标；

针对每个所述关键点通道，根据该关键点通道所指向的轮廓关键点的坐标以及所述中心点的坐标，从与该关键点通道对应的距离回归通道所对应的热力图中，确定出该关键点通道所指向的轮廓关键点与所述中心点之间的距离；

根据各个轮廓关键点与所述中心点之间的距离，形成所述轮廓特征向量。

5.根据权利要求4所述的方法，其特征在于，所述根据与所述中心点通道对应的热力图以及与每个所述关键点通道对应的热力图，确定出所述中心点的坐标以及每个所述关键点通道所指向的轮廓关键点的坐标，包括：

将与所述中心点通道对应的热力图中，极大值对应的位置的坐标确定为所述中心点的坐标；

将与所述该关键点通道对应的热力图中，极大值对应的位置的坐标确定为所述该关键点通道所指向的轮廓关键点的坐标。

6.根据权利要求4所述的方法，其特征在于，所述根据该关键点通道所指向的轮廓关键点的坐标以及所述中心点的坐标，从与该关键点通道对应的距离回归通道所对应的热力图中，确定出该关键点通道所指向的轮廓关键点与所述中心点之间的距离，包括：

获取与该关键点通道对应的距离回归通道对应的热力图中，与该关键点通道所指向的轮廓关键点的坐标处的第一取值以及所述中心点的坐标处的第二取值；

在确定所述第一取值大于所述第二取值时，确定所述第一取值为所述该关键点通道所指向的轮廓关键点与所述中心点之间的距离。

7.根据权利要求4所述的方法，其特征在于，预先为每个关键点通道设置对应的角度信息，所述根据各个轮廓关键点与所述中心点之间的距离，形成所述轮廓特征向量，包括：

根据各个关键点通道所对应的角度信息大小关系，对各个轮廓关键点与所述中心点之间的距离进行排序，形成所述轮廓特征向量。

8.根据权利要求3-7任一项所述的方法，其特征在于，所述待识别图像为单帧图像，或者所述待识别图像为包括多帧图像的图像序列。

9.根据权利要求8所述的方法，其特征在于，

当所述待识别图像为单帧图像时，所述分类模型为全连接网络；

当所述待识别图像为图像序列时，所述分类模型为循环神经网络。

10.一种训练装置，其特征在于，用于训练轮廓特征提取网络，所述装置包括：

其中，所述轮廓特征提取网络的输出为与其输入特征图中的对象对应的轮廓特征图，所述轮廓特征图包括：与所述输入特征图中的对象的N个轮廓关键点一一对应的N个通道、与所述输入特征图中的对象的中心点对应的一个通道以及与所述N个通道一一对应的，用于表征该通道所指向的轮廓关键点与所述输入特征图中的对象的中心点之间的距离回归通道。

11.一种动作识别装置，其特征在于，所述装置包括：

所述特征提取模块，还用于将所述特征图输入到通过权利要求1或2所述的方法训练得到的轮廓特征提取网络，输出得到轮廓特征图；

12.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器连接；

所述存储器用于存储程序；

所述处理器调用存储于所述存储器中的程序，以执行如权利要求1-9中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被计算机运行时执行如权利要求1-9中任一项所述的方法。