CN114596580B

CN114596580B - 一种多人体目标识别方法、系统、设备及介质

Info

Publication number: CN114596580B
Application number: CN202210132643.6A
Authority: CN
Inventors: 郝祁; 兰功金; 吴钰
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2024-05-14
Anticipated expiration: 2042-02-14
Also published as: CN114596580A

Abstract

本发明公开了一种多人体目标识别方法、系统、设备及介质，该方法包括：获取待识别图像，并根据待识别图像通过下采样处理得到第一采样特征图；将第一采样特征图输入改进的HRNet神经网络模型，以得到目标特征图；其中，改进的HRNet神经网络模型至少包括三个阶段，每一个阶段包括四个对称耦合逐通道卷积模块，每一个对称耦合逐通道卷积模块包括两个1×1标准卷积核和两个3×3逐通道卷积核；根据目标特征图进行反卷积处理，以得到目标识别图像。本发明基于改进的HRNet神经网络模型，通过提出新的对称耦合逐通道卷积模块对图像进行处理，并且设置了三个阶段以减少计算量。能够在保持图像识别精度的同时，有效地减少了姿态识别神经网络模型的计算量。

Description

一种多人体目标识别方法、系统、设备及介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种多人体目标识别方法、系统、设备及介质。

背景技术

相关技术中，人体姿态识别指对传感器捕捉的人体信息(一般为图片)中的人体骨骼关键点(例如头部，关节等)位置进行预测。通过设计深度神经网络，对深度神经网络训练，训练后的神经网络具有处理传感器捕捉的人体信息的能力，输出预测的人体骨骼关键点。人体姿态识别的深度学习方法普遍依赖复杂的神经网络，需要性能强大的GPU设备以达到实时性的应用要求，难以在移动端等物联网设备上运行，给人工智能的应用落地带来了很大挑战。因此，面向移动端的轻量级姿态识别神经网络技术是迫切需求的。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种多人体目标识别方法、系统、设备及介质，能够在提高图像识别精度的同时，有效地减少了姿态识别神经网络模型的计算量。

根据本发明的第一方面实施例的一种多人体目标识别方法，包括：

获取待识别图像，并根据所述待识别图像通过下采样处理得到第一采样特征图；

将所述第一采样特征图输入改进的HRNet神经网络模型，以得到目标特征图；其中，所述改进的HRNet神经网络模型至少包括三个阶段，每一个阶段包括四个对称耦合逐通道卷积模块，四个所述对称耦合逐通道卷积模块依次连接，每一个所述对称耦合逐通道卷积模块包括两个1×1标准卷积核和两个3×3逐通道卷积核，其中，第一个1×1标准卷积核、第一个3×3逐通道卷积核、第二个3×3逐通道卷积核和第二个1×1标准卷积核依次连接；其中，根据每一个所述对称耦合逐通道卷积模块对输入的特征图进行卷积处理，包括：

将输入的特征图输入所述第一个1×1标准卷积核，以得到第一通道特征图，其中，所述输入的特征图是指输入进每一个所述对称耦合逐通道卷积模块的特征图；

将所述第一通道特征图输入所述第一个3×3逐通道卷积核，将得到的输出特征图输入所述第二个3×3逐通道卷积核，以得到第二通道特征图；

根据所述第一通道特征图和所述第二通道特征图进行特征融合处理，以得到第三通道特征图；

将所述第三通道特征图输入所述第二个1×1标准卷积核，以得到第四通道特征图；

将所述第四通道特征图与所述输入的特征图进行特征融合处理，以得到每一个所述对称耦合逐通道卷积模块的输出特征图；

根据所述目标特征图进行反卷积处理，以得到目标识别图像。

根据本发明实施例的一种多人体目标识别方法，至少具有如下有益效果：基于改进的HRNet神经网络模型，通过对称耦合逐通道卷积模块对图像进行处理，并且设置了三个阶段以减少计算量。能够在保持图像识别精度的同时，有效地减少了姿态识别神经网络模型的计算量，实现了可用于智能手机等计算资源有限的移动设备上的实时多人人体姿态识别。

根据本发明的一些实施例，所述将所述第一采样特征图输入改进的HRNet神经网络模型，以得到目标特征图，包括：

将所述第一采样特征图依次通过每一个阶段对应的四个所述对称耦合逐通道卷积模块，并根据每一个所述对称耦合逐通道卷积模块对输入的特征图进行卷积处理，以得到目标特征图。

根据本发明的一些实施例，所述将所述第一采样特征图依次通过每一个阶段对应的四个所述对称耦合逐通道卷积模块，并根据每一个所述对称耦合逐通道卷积模块对输入的特征图进行卷积处理，以得到目标特征图，包括：

在第一个阶段，将所述第一采样特征图依次经过第一个阶段对应的四个所述对称耦合逐通道卷积模块，根据每一个所述对称耦合逐通道卷积模块对所述第一采样特征图进行卷积处理，以得到第一卷积特征图；

在第二个阶段，将所述第一卷积特征图依次经过第二个阶段对应的四个所述对称耦合逐通道卷积模块，并根据每一个所述对称耦合逐通道卷积模块对所述第一卷积特征图进行卷积处理，以得到第一中间特征图，根据所述第一卷积特征图进行下采样处理，以得到第二中间特征图，根据所述第一中间特征图和所述第二中间特征图进行特征融合处理，以得到第二卷积特征图；

在第三个阶段，将所述第二卷积特征图依次经过第三个阶段对应的四个所述对称耦合逐通道卷积模块，并根据每一个所述对称耦合逐通道卷积模块对所述第二卷积特征图进行卷积处理，以得到第三中间特征图，根据所述第二中间特征图进行下采样处理，以得到第四中间特征图，根据所述第二中间特征图、所述第三中间特征图和所述第四中间特征图进行特征融合处理，以得到目标特征图。

根据本发明的一些实施例，所述根据每一个所述对称耦合逐通道卷积模块对输入的特征图进行卷积处理，包括：

依次根据所述第一个1×1标准卷积核、所述第一个3×3逐通道卷积核、所述第二个3×3逐通道卷积核、以及所述第二个1×1标准卷积核对输入的特征图进行卷积处理，以得到每一个所述对称耦合逐通道的输出特征图。

根据本发明的一些实施例，所述根据每一个所述对称耦合逐通道卷积模块对输入的特征图进行卷积处理，还包括：

依次根据所述第一个1×1标准卷积核、所述第一个3×3逐通道卷积核、所述第二个3×3逐通道卷积核、以及所述第二个1×1标准卷积核对输入的特征图进行卷积处理，得到第五通道特征图；

将所述第五通道特征图与所述输入的特征图进行特征融合处理，以得到每一个所述对称耦合逐通道卷积模块的输出特征图。

根据本发明的一些实施例，在第三个阶段，所述根据所述第二中间特征图、所述第三中间特征图和所述第四中间特征图进行特征融合处理，以得到目标特征图，包括：

根据所述第二中间特征图进行卷积处理和上采样处理，以得到第一更新的第二中间特征图；

根据所述第四中间特征图进行卷积处理和上采样处理，以得到更新的第四中间特征图；

根据所述更新的第二中间特征图、所述第三中间特征图和所述更新的第四中间特征图进行特征融合处理，以得到目标特征图。

根据本发明的一些实施例，在第二个阶段，所述根据所述第一中间特征图和所述第二中间特征图进行特征融合处理，以得到第二卷积特征图，包括：

根据所述第二中间特征图进行卷积处理和上采样处理，以得到第二更新的第二中间特征图；

根据所述第一中间特征图和所述第二更新的第二中间特征图进行特征融合处理，以得到第二卷积特征图。

根据本发明的第二方面实施例的一种多人体目标识别系统，包括：

图像获取模块，用于获取待识别图像，并根据所述待识别图像通过下采样处理得到第一采样特征图；

图像处理模块，用于将所述第一采样特征图输入改进的HRNet神经网络模型，以得到目标特征图；其中，所述改进的HRNet神经网络模型至少包括三个阶段，每一个阶段包括四个对称耦合逐通道卷积模块，四个所述对称耦合逐通道卷积模块依次连接，每一个所述对称耦合逐通道卷积模块包括两个1×1标准卷积核和两个3×3逐通道卷积核，其中，第一个1×1标准卷积核、第一个3×3逐通道卷积核、第二个3×3逐通道卷积核和第二个1×1标准卷积核依次连接；其中，根据每一个所述对称耦合逐通道卷积模块对输入的特征图进行卷积处理，包括：

目标识别图像确定模块，用于根据所述目标特征图进行反卷积处理，以得到目标识别图像。

根据本发明的第三方面实施例的一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明第一方面实施例中任意一项所述的方法。

根据本发明的第四方面实施例的一种存储介质，所述存储介质为计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如本发明第一方面实施例中任意一项所述的方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

下面结合附图和实施例对本发明做进一步的说明，其中：

图1是本发明实施例提供的整体网络架构示意图；

图2是本发明实施例提供的对称耦合逐通道卷积模块的模块连接示意图。

图3为本发明实施例提供的一种多人体目标识别方法的一个流程图；

图4为本发明实施例提供的一种多人体目标识别方法的另一个流程图；

图5为本发明实施例提供的一种多人体目标识别方法的另一个流程图；

图6为本发明实施例提供的一种多人体目标识别方法的另一个流程图；

图7为本发明实施例提供的一种多人体目标识别方法的另一个流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

首先，对本发明中涉及的名词进行解析：

高分辨率网络(HRNet)：是用于人体姿势估计的先进神经网络。一种图像处理任务，可在图像中找到对象的关节和身体部位的配置。网络中的新颖之处在于保持输入数据的高分辨率表示，并将其与高分辨率到低分辨率子网并行组合，同时保持有效的计算复杂性和参数计数。

人体姿态识别指对传感器捕捉的人体信息(一般为图片)中的人体骨骼关键点(例如头部，关节等)位置进行预测。当前比较流行的方法，主要是基于深度神经网络的方法。通过设计深度神经网络，收集标注训练数据集。使用标注的数据对深度神经网络训练。训练后的神经网络具有处理传感器捕捉的人体信息的能力，输出预测的人体骨骼关键点。

当前的多目标人体姿态识别方法主要可以分为两类：自顶向下(Top-down)的方法和自底向上(bottom-up)的方法。自底向上的方法一般需要预测关键点之间的相似度，目前最先进的自底向上的方法通常采用Associative Embedding(AE)算法。为了预测相似度，AE算法为每个人体关键点预测一个标签(Tag)值(即输出一个大小与关键点热力图相同的张量，张量中每个位置的值即为对应关键点的标签值)，定义一对关键点的相似度为其标签值差值的绝对值。在预测标签值后，AE算法的成组(Grouping)算法通过选择相似度最高的肢体(Limb)连接关键点。由于不需要自顶向上算法中额外的人体检测单元，自底向上算法的准确率相比之下较低。但是自顶向上算法需要依次对每个检测到的人体单独预测骨骼关键点坐标，计算量随着输入图片中人体数量(近似)线性增加。重要的是，在实际应用中，稳定的计算时间显得尤为重要。当前人体姿态识别的深度学习方法普遍依赖复杂的神经网络，需要性能强大的GPU设备以达到实时性的应用要求。

基于此，本发明实施例提供一种多人体目标识别方法、系统、设备及介质，基于改进的HRNet多人人体姿态识别算法，提供一个新的对称耦合逐通道卷积模块来替代原先网络的残差模块。提高了图像识别的效果，并且极大减少了神经网络的计算量。可用于移动端的轻型神经网络和自底向上的多人人体姿态识别算法，实现了在移动CPU设备上实时多人人体姿态的识别。

本发明实施例采用改进的HRNet神经网络模型作为骨干网络进行对图像进行处理，原网络中使用的卷积模块为残差模块，改进的HRNet神经网络模型主要是提供一个新的对称耦合逐通道卷积模块来替代原先网络的残差模块。

通常，1×1的标准卷积，可以获得通道之间的特征。3×3的逐通道卷积，可以获得空间之间的特征。本发明通过组合1×1标准卷积核和3×3逐通道卷积核来增大网络的感受野，增强全局的特征提取功能。对称耦合逐通道卷积模块处理一次大小为C×H×W的输入需要的计算量为(C×C′×H×W+9×C×H×W)×2＝C×H×W×(C′×2+18)，此处C′为中间层通道数，而一个3×3标准卷积需要的计算量为C×H×W×(9×C)，两者的比值为当中间层通道数C′与输入通道数C相同时，本文的卷积模块需要的计算量为/>而一个标准卷积的深度神经网络的特征通道数C从几十到几百不等，在通道数很大时，本发明实施例的对称耦合逐通道卷积模块可以减小约/>的计算量。另外，本发明实施例在一个对称耦合逐通道卷积模块内具有同一维度(通道数)的特征图之间使用了跨层连接来帮助训练神经网络，可以显著提升模型的准确率。

在对本发明实施例中提供的多人体目标识别方法进行说明之前，首先对本发明中的整体网络架构和对称耦合逐通道卷积模块的组成结构进行介绍。

请参照图1、图2，图1是本发明实施例提供的整体网络架构示意图，图2是本发明实施例提供的对称耦合逐通道卷积模块的结构示意图。改进的HRNet神经网络模型至少包括三个阶段，每一个阶段包括四个对称耦合逐通道卷积模块，四个对称耦合逐通道卷积模块依次连接，每一个对称耦合逐通道卷积模块包括两个1×1标准卷积核和两个3×3逐通道卷积核，其中，第一个1×1标准卷积核、第一个3×3逐通道卷积核、第二个3×3逐通道卷积核和第二个1×1标准卷积核依次连接。对于跨层连接(skip connection)，本发明在一个卷积模块内具有同一维度(通道数)的特征图之间均使用了跨层连接来帮助训练神经网络。

图3是本发明实施例提供的多人体目标识别方法的流程图，参照图3，该多人体目标识别方法包括但不限于步骤S110至步骤S130。

步骤S110，获取待识别图像，并根据待识别图像通过下采样处理得到第一采样特征图。

具体的，对待识别图像经过跨步卷积处理后得到第一采样特征图。该跨步卷积的步长可为2、3等，本发明实施例不做具体限定。

步骤S120，将第一采样特征图输入改进的HRNet神经网络模型，以得到目标特征图；其中，改进的HRNet神经网络模型至少包括三个阶段，每一个阶段包括四个对称耦合逐通道卷积模块，四个对称耦合逐通道卷积模块依次连接，每一个对称耦合逐通道卷积模块包括两个1×1标准卷积核和两个3×3逐通道卷积核，其中，第一个1×1标准卷积核、第一个3×3逐通道卷积核、第二个3×3逐通道卷积核和第二个1×1标准卷积核依次连接；其中，根据每一个对称耦合逐通道卷积模块对输入的特征图进行卷积处理，包括：

将输入的特征图输入第一个1×1标准卷积核，以得到第一通道特征图，其中，输入的特征图是指输入进每一个对称耦合逐通道卷积模块的特征图；

将第一通道特征图输入第一个3×3逐通道卷积核，将得到的输出特征图输入第二个3×3逐通道卷积核，以得到第二通道特征图；

根据第一通道特征图和第二通道特征图进行特征融合处理，以得到第三通道特征图；

将第三通道特征图输入第二个1×1标准卷积核，以得到第四通道特征图；

将第四通道特征图与输入的特征图进行特征融合处理，以得到每一个对称耦合逐通道卷积模块的输出特征图。

具体的，采用改进的HRNet网络作为骨干网络进行对图像进行处理，改进的HRNet网络包括：提供一个新的对称耦合逐通道卷积模块来替代原先网络的残差卷积模块。每一个对称耦合逐通道卷积模块包括两个1×1标准卷积核和两个3×3逐通道卷积核，其中，第一个1×1标准卷积核、第一个3×3逐通道卷积核、第二个3×3逐通道卷积核和第二个1×1标准卷积核依次连接。1×1的标准卷积核，可以获得通道之间的特征。3×3逐通道卷积核，可以获得空间之间的特征。本发明实施例通过组合1×1标准卷积核和3×3逐通道卷积核来增大网络的感受野，增强全局的特征提取功能。

可以理解的是，第一通道特征图与第二通道特征图之间的特征融合，以及第四通道特征图与输入的特征图的特征融合处理，通过跨层连接，充分挖掘出特征图与特征图之间的潜在特征，有助于提高神经网络模型的图像识别的准确率。

可以理解的是，从计算量的角度考虑只设计了3个阶段，并采用高效的对称耦合逐通道卷积模块替换HRNet神经网络模型中需要更多计算量的残差模块。相较于原先网络的残差卷积模块减少了计算量，有益于提高图像处理的速度。

步骤S130，根据目标特征图进行反卷积处理，以得到目标识别图像。

具体的，根据目标特征图通过一组反卷积操作，输出目标识别图像。例如得到的目标识别特征图为2×H×W，该目标识别图像的前k个通道的特征图为关键点热力图，后k个通道的特征图为标签值张量。需要说明的是，目标特征图为最后一个对称耦合逐通道卷积模块输出的特征图。

本发明实施例的改进的HRNet神经网络模型可以实现端到端的多人人体姿态识别，输入为3通道的长宽为H，W的RGB图片(大小为3xHxW)，输出为人体骨骼关键点的热力图(Heatmaps)和标签值(AE)张量(大小均为kxHxW，k为预定义的人体关键点，一般为17)。

可以理解的是，参照图4，步骤S120包括但不限于：

步骤S210，将第一采样特征图依次通过每一个阶段对应的四个对称耦合逐通道卷积模块，并根据每一个对称耦合逐通道卷积模块对输入的特征图进行卷积处理，以得到目标特征图。

具体的，原先的HRNet神经网络模型是根据残差模块来对输入的特征图进行卷积处理，但原先的残差模块计算量太大。因而，在本实施例中，是通过对称耦合逐通道卷积模块来对输入的特征图进行处理，减少了神经网络的计算量。例如：对称耦合逐通道卷积模块处理一次大小为C×H×W的输入需要的计算量为(C×C′×H×W+9×C×H×W)×2＝C×H×W×(C′×2+18)，此处C′为中间层通道数，而一个3×3标准卷积需要的计算量为C×H×W×(9×C)，两者的比值为当中间层通道数C′与输入通道数C相同时，本文的卷积模块需要的计算量为/>而一个标准卷积的深度神经网络的特征通道数C从几十到几百不等，在通道数很大时，本发明实施例的对称耦合逐通道卷积模块可以减小约/>的计算量。

在一实施例中，参照图1、图5，步骤S210包括但不限于步骤S310至步骤S330。

步骤S310，在第一个阶段，将第一采样特征图依次经过第一个阶段对应的四个对称耦合逐通道卷积模块，根据每一个对称耦合逐通道卷积模块对第一采样特征图进行卷积处理，以得到第一卷积特征图；

步骤S320，在第二个阶段，将第一卷积特征图依次经过第二个阶段对应的四个对称耦合逐通道卷积模块，并根据每一个对称耦合逐通道卷积模块对第一卷积特征图进行卷积处理，以得到第一中间特征图，根据第一卷积特征图进行下采样处理，以得到第二中间特征图，根据第一中间特征图和第二中间特征图进行特征融合处理，以得到第二卷积特征图；

步骤S330，在第三个阶段，将第二卷积特征图依次经过第三个阶段对应的四个对称耦合逐通道卷积模块，并根据每一个对称耦合逐通道卷积模块对第二卷积特征图进行卷积处理，以得到第三中间特征图，根据第二中间特征图进行下采样处理，以得到第四中间特征图，根据第二中间特征图、第三中间特征图和第四中间特征图进行特征融合处理，以得到目标特征图。

在一实施例中，参照图1，在第一个阶段，将第一采样特征图依次经过四个对称耦合逐通道卷积模块得到第一阶段输出特征图。在第二个阶段，将第一阶段输出特征图依次经过四个对称耦合逐通道卷积模块得到第二阶段输出特征图。在第三个阶段，将第二阶段输出特征图依次经过四个对称耦合逐通道卷积模块得到第三阶段输出特征图，将该第三阶段输出特征图作为目标特征图。

在一实施例中，根据第二中间特征图、第三中间特征图和第四中间特征图进行特征融合处理，以得到目标特征图，具体包括以下步骤：

根据第二中间特征图进行卷积处理和上采样处理，以得到第一更新的第二中间特征图；

根据第四中间特征图进行卷积处理和上采样处理，以得到更新的第四中间特征图；

根据更新的第二中间特征图、第三中间特征图和更新的第四中间特征图进行特征融合处理，以得到目标特征图。

具体的，为了进一步提高图像识别的效果，在本步骤中，将第二中间特征图再次输入对称耦合逐通道卷积模块进行卷积处理，再进行上采样处理，以得到第一更新的第二中间特征图。将第四中间特征图再次输入对称耦合逐通道卷积模块进行卷积处理，再进行上采样处理，以得到更新的第四中间特征图。并且还根据得到更新的第二中间特征图、第三中间特征图和更新的第四中间特征图进行特征融合，充分挖掘高分辨率与低分辨率特征图之间图像特征。

需要说明的是，上采样处理可选用最大邻上采样处理。上述的对特征图卷积处理可以选用对称耦合逐通道卷积模块来进行处理，也可以选用其他卷积方式。例如采用残差模块，计算量会稍稍增大，但对总的计算量影响不大。

在一实施例中，根据第一中间特征图和第二中间特征图进行特征融合处理，以得到第二卷积特征图，具体包括以下步骤：

根据第二中间特征图进行卷积处理和上采样处理，以得到第二更新的第二中间特征图；

根据第一中间特征图和第二更新的第二中间特征图进行特征融合处理，以得到第二卷积特征图。

具体的，为了进一步提高图像识别的效果，在本步骤中，对第二中间特征图再次输入对称耦合逐通道卷积模块进行卷积处理，再进行上采样，以得到第二更新的第二中间特征图。并且还根据第一中间特征图和第二更新的第二中间特征图进行特征融合处理，充分挖掘高分辨率与低分辨率特征图之间图像特征。

参照图2、图6，根据每一个对称耦合逐通道卷积模块对输入的特征图进行卷积处理，具体包括但不限于步骤S410。

步骤S410，依次根据第一个1×1标准卷积核、第一个3×3逐通道卷积核、第二个3×3逐通道卷积核、以及第二个1×1标准卷积核对输入的特征图进行卷积处理，以得到每一个对称耦合逐通道的输出特征图。

具体的，本方案中采用的1×1标准卷积核和3×3逐通道卷积核均不改变特征图的长宽。1x1标准卷积核会改变特征图的通道数，3×3逐通道卷积核不改变特征图的通道数。

参照图2、图7，本发明实施例在一个对称耦合逐通道卷积模块内将具有同一通道数的特征图之间使用了跨层连接来帮助训练神经网络，可以理解的是，根据每一个对称耦合逐通道卷积模块对输入的特征图进行卷积处理，包括但不限于步骤S510至步骤S520。

步骤S510，依次根据第一个1×1标准卷积核、第一个3×3逐通道卷积核、第二个3×3逐通道卷积核、以及第二个1×1标准卷积核对输入的特征图进行卷积处理，得到第五通道特征图；

步骤S520，将第五通道特征图与输入的特征图进行特征融合处理，以得到每一个对称耦合逐通道卷积模块的输出特征图。

可以理解的是，第五通道特征图与输入的特征图的特征融合处理，通过跨层连接，充分挖掘出特征图与特征图之间的潜在特征，有助于提高神经网络模型的图像识别的准确率。

在一实际示例中，输入的3xHxW的RGB图片经过两个步长为2的跨步卷积下采样为的特征图后输入主干网络。主干网络分为3个阶段，每个阶段含有不同分辨率的特征图，越后期的阶段含有分辨率越低的特征图。在第2、3阶段的阶段开始通过一个步长为2的跨步卷积产生一个长宽为原特征图的新特征图。每个阶段中相同分辨率的特征图通过对称耦合逐通道卷积模块提取特征，下采样卷积通过步长为2的跨步卷积处理提取特征，上采样处理通过最近邻上采样实现。在第三个阶段输出分辨率最高的特征图通过反卷积操作，输出2×H×W目标识别图，其中前k个通道的特征图为关键点热力图，后k个通道的特征图为标签值张量。

本发明实施例还提供了一种多人体目标识别系统，包括：

图像获取模块，用于获取待识别图像，并根据待识别图像通过下采样处理得到第一采样特征图；

图像处理模块，用于将第一采样特征图输入改进的HRNet神经网络模型，以得到目标特征图；其中，改进的HRNet神经网络模型至少包括三个阶段，每一个阶段包括四个对称耦合逐通道卷积模块，四个对称耦合逐通道卷积模块依次连接，每一个对称耦合逐通道卷积模块包括两个1×1标准卷积核和两个3×3逐通道卷积核，其中，第一个1×1标准卷积核、第一个3×3逐通道卷积核、第二个3×3逐通道卷积核和第二个1×1标准卷积核依次连接；其中，根据每一个对称耦合逐通道卷积模块对输入的特征图进行卷积处理，包括：

将第四通道特征图与输入的特征图进行特征融合处理，以得到每一个对称耦合逐通道卷积模块的输出特征图；

目标识别图像确定模块，用于根据目标特征图进行反卷积处理，以得到目标识别图像。

该多人体目标识别系统各个模块通过执行上述方法实施例中的方法步骤，基于HRNet神经网络模型提出的对称耦合逐通道卷积模块，在保证图像识别效果的前提下，极大减少了计算量。可用于移动端的轻型神经网络和自底向上的多人人体姿态识别算法，实现了在移动CPU设备上实时多人人体姿态的识别。

可以理解的是，从计算量的角度考虑只设计了3个阶段，并采用高效的对称耦合逐通道卷积模块替换HRNet中需要更多计算量的残差模块。相较于原先网络的残差卷积模块减少了计算量，有益于提高图像处理的速度。

其中，一种多人体目标识别系统的具体执行步骤参照上述一种多人体目标识别方法，此处不再赘述。

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述任一项方法实施例中的方法。

此外，本发明的一个实施例还提供了一种存储介质，该存储介质为计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，一个或多个控制处理器执行上述方法实施例中的方法，例如，执行以上描述的图3中的方法步骤S110至S130、图4中的方法步骤S210、图5中的方法步骤S310至S330、图6中的方法步骤S410、图7中的方法步骤S510至S520。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络节点上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，实施例示出的技术方案并不构成对本公开实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机可读存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机可读存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。此外，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

Claims

1.一种多人体目标识别方法，其特征在于，包括：

2.根据权利要求1所述的一种多人体目标识别方法，其特征在于，所述将所述第一采样特征图输入改进的HRNet神经网络模型，以得到目标特征图，包括：

3.根据权利要求2所述的一种多人体目标识别方法，其特征在于，所述将所述第一采样特征图依次通过每一个阶段对应的四个所述对称耦合逐通道卷积模块，并根据每一个所述对称耦合逐通道卷积模块对输入的特征图进行卷积处理，以得到目标特征图，包括：

4.根据权利要求2所述的一种多人体目标识别方法，其特征在于，所述根据每一个所述对称耦合逐通道卷积模块对输入的特征图进行卷积处理，还包括：

5.根据权利要求2所述的一种多人体目标识别方法，其特征在于，所述根据每一个所述对称耦合逐通道卷积模块对输入的特征图进行卷积处理，还包括：

6.根据权利要求3所述的一种多人体目标识别方法，其特征在于，在第三个阶段，所述根据所述第二中间特征图、所述第三中间特征图和所述第四中间特征图进行特征融合处理，以得到目标特征图，包括：

7.根据权利要求3所述的一种多人体目标识别方法，其特征在于，在第二个阶段，所述根据所述第一中间特征图和所述第二中间特征图进行特征融合处理，以得到第二卷积特征图，包括：

8.一种多人体目标识别系统，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的方法。

10.一种存储介质，所述存储介质为计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1至7中任意一项所述的方法。