CN115601789A

CN115601789A - 一种基于空间交叉卷积的坐姿识别系统及方法

Info

Publication number: CN115601789A
Application number: CN202211307254.9A
Authority: CN
Inventors: 项乐宏; 方益; 石守东; 蓝艇; 王翀
Original assignee: Loctek Ergonomic Technology Co Ltd
Current assignee: Loctek Ergonomic Technology Co Ltd
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-01-13

Abstract

本发明提供一种基于空间交叉卷积的坐姿识别系统及方法，涉及深度学习技术领域，包括：采用特征提取网络对人体图像进行特征提取得到第一特征图；采用改进的轻量级人体骨架提取网络对第一特征图进行人体骨架提取得到人体骨架图；改进的轻量级人体骨架提取网络包括初始化网络和至少一个修正网络；初始化网络包括第一初始化分支和第二初始化分支，均由多个标准卷积层和多个空间交叉卷积层堆叠形成；修正网络包括第一修正分支和第二修正分支，均由多个卷积块堆叠形成，且部分卷积块中采用空间交叉卷积层部分代替标准卷积层；根据人体骨架图进行坐姿识别得到人体图像的坐姿识别结果。有益效果是在模型精度下降很小的前提下能够显著提升模型推理速度。

Description

一种基于空间交叉卷积的坐姿识别系统及方法

技术领域

本发明涉及深度学习技术领域，尤其涉及一种基于空间交叉卷积的坐姿识别系统及方法。

背景技术

现如今，坐姿识别算法广泛采用姿态估计算法提取人体骨架特征，然后再进行坐姿识别。但是现存的姿态估计算法模型参数量较大，不适用于部署到嵌入式设备运行。Lightweight OpenPose是一个轻量级的人体姿态估计算法，可以在CPU上实现快速推理，但是由于其在预测阶段包含大量传统卷积操作，使得模型的预测阶段参数过于冗余，会降低模型的推理速度。因此亟需一种同时满足能够部署到嵌入式设备运行，且具有较高推理速度的坐姿识别技术。

发明内容

针对现有技术中存在的问题，本发明提供一种基于空间交叉卷积的坐姿识别系统，包括：

特征提取模块，用于采用预先构建的特征提取网络对输入的人体图像进行特征提取得到相应的第一特征图；

人体骨架提取模块，连接所述特征提取模块，用于采用改进的轻量级人体骨架提取网络对所述第一特征图进行人体骨架提取得到所述第一特征图中包含的人体骨架图；

所述改进的轻量级人体骨架提取网络包括初始化网络和连接所述初始化网络的至少一个修正网络；

所述初始化网络包括第一初始化分支和第二初始化分支，均由多个标准卷积层和多个空间交叉卷积层堆叠形成，分别用于对所述第一特征图进行关键点定位和关键点组合以对应得到初始关键点热力图和初始部位亲和场热力图；

所述修正网络包括第一修正分支和第二修正分支，均由多个卷积块堆叠形成，且部分所述卷积块中采用所述空间交叉卷积层部分代替所述标准卷积层，分别用于对所述第一特征图、所述初始关键点热力图和所述初始部位亲和场热力图叠加形成的第二特征图进行关键点定位和关键点组合以对应得到修正关键点热力图和修正部位亲和场热力图，进而构建所述人体骨架图；

坐姿识别模块，连接所述人体骨架提取模块，用于根据所述人体骨架图进行坐姿识别得到所述人体图像的坐姿识别结果。

优选的，所述特征提取网络为添加了注意力机制的MobileNetV3网络。

优选的，所述第一初始化分支和所述第二初始化分支包括依次连接的两个所述空间交叉卷积层和三个所述标准卷积层。

优选的，所述第一修正分支和所述第二修正分支包括依次连接的第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块和两个所述标准卷积层；

所述第一卷积块、所述第三卷积块和所述第五卷积块包括依次连接的三个所述标准卷积层；

所述第二卷积块和所述第四卷积块包括依次连接的三个卷积层，其中，第一个卷积层和第三个卷积层为所述标准卷积层，第二个卷积层为所述空间交叉卷积层。

优选的，所述空间交叉卷积层包括：

自适应位置编码模块，用于对输入特征图进行位置编码得到编码后特征图，所述编码后特征图中的每个像素对应标记有所述像素在所述输入特征图中的位置信息；

空间分离重组模块，连接所述自适应位置编码模块，用于将所述编码后特征图中的各通道的所述像素进行重组得到重组特征图，所述重组特征图中包含所有所述通道的特征信息；

深度可分离卷积模块，连接所述空间分离重组模块，用于对所述重组特征图依次进行逐通道卷积和逐点卷积处理。

优选的，所述自适应位置编码模块包括：

位置编码单元，用于将所述输入特征图送入3*3大小的组卷积生成位置映射特征图；

特征融合单元，连接所述位置编码单元，用于将所述输入特征图与所述位置映射特征图进行特征融合得到所述编码后特征图。

优选的，所述空间分离重组模块中，采用如下公式将所述编码后特征图中的各通道的所述像素进行重组：

F′＝T(T(F,2,3),1,3)

其中，F′用于表示所述重组特征图，F用于表示所述编码后特征图，T用于表示矩阵转置函数，1,2,3分别用于表示对应的特征图的第一维度、第二维度和第三维度。

本发明还提供一种基于空间交叉卷积的坐姿识别方法，应用于上述的坐姿识别系统，所述坐姿识别方法包括：

步骤S1，通过预先构建的特征提取网络对输入的人体图像进行特征提取得到相应的第一特征图；

步骤S2，将所述第一特征图送入改进的轻量级人体骨架提取网络处理得到所述第一特征图中包含的人体骨架图；

步骤S3，根据所述人体骨架图进行坐姿识别得到所述人体图像的坐姿识别结果。

优选的，所述空间交叉卷积层包括：

上述技术方案具有如下优点或有益效果：基于Lightweight OpenPose的轻量级人体姿态估算网络框架，采用添加了注意力机制的MobileNetV3网络进行图像特征提取，能够获取重要性权重更高的特征信息，同时使用空间交叉卷积层部分代替传统的标准卷积层，能够获取图片丰富的全局特征信息，并且能够减少模型的参数量，进而在模型精度下降很小的前提下能够显著提升模型推理速度，能够在边缘设备上实现快速坐姿识别。

附图说明

图1为本发明的较佳的实施例中，一种基于空间交叉卷积的坐姿识别系统的结构示意图；

图2为本发明的较佳的实施例中，特征提取网络和改进的轻量级人体骨架提取网络的网络结构示意图；

图3为本发明的较佳的实施例中，空间交叉卷积层的结构示意图；

图4为本发明的较佳的实施例中，空间交叉分离重组过程的示意图；

图5为本发明的较佳的实施例中，一种基于空间交叉卷积的坐姿识别方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本发明并不限定于该实施方式，只要符合本发明的主旨，则其他实施方式也可以属于本发明的范畴。

本发明的较佳的实施例中，基于现有技术中存在的上述问题，现提供一种基于空间交叉卷积的坐姿识别系统，如图1和图2所示，包括：

特征提取模块1，用于采用预先构建的特征提取网络对输入的人体图像进行特征提取得到相应的第一特征图；

人体骨架提取模块2，连接特征提取模块1，用于采用改进的轻量级人体骨架提取网络对第一特征图进行人体骨架提取得到第一特征图中包含的人体骨架图；

改进的轻量级人体骨架提取网络包括初始化网络100和连接初始化网络100的至少一个修正网络200；

初始化网络100包括第一初始化分支101和第二初始化分支102，均由多个标准卷积层和多个空间交叉卷积层堆叠形成，分别用于对第一特征图进行关键点定位和关键点组合以对应得到初始关键点热力图和初始部位亲和场热力图；

修正网络200包括第一修正分支201和第二修正分支202，均由多个卷积块堆叠形成，且部分卷积块中采用空间交叉卷积层部分代替标准卷积层，分别用于对第一特征图、初始关键点热力图和初始部位亲和场热力图叠加形成的第二特征图进行关键点定位和关键点组合以对应得到修正关键点热力图和修正部位亲和场热力图，进而构建人体骨架图；

坐姿识别模块3，连接人体骨架提取模块2，用于根据人体骨架图进行坐姿识别得到人体图像的坐姿识别结果。

具体地，本实施例中，改进的轻量级人体骨架提取网络基于LightweightOpenPose的轻量级人体姿态估算网络框架，其中，将原有Lightweight OpenPose中的特征提取网络改进为添加了注意力机制的MobileNetV3网络，使其能够获得重要性权重更高的特征信息。考虑到标准卷积能够高效地学习输入特征图所有通道的整体特征，但是参数量多，计算量大使其在边缘设备部署时会消耗大量资源，导致网络模型推理速度大大降低，本实施例中，使用空间交叉卷积层代替来Lightweight OpenPose网络预测阶段的部分传统卷积(即标准卷积层)，空间交叉卷积层可以获得图片丰富的全局特征信息，并且能够减少模型的参数量，最终在模型精度下降很小的前提下能够显著提升模型推理速度。

进一步具体地，第一初始化分支101和第二初始化分支102包括依次连接的两个空间交叉卷积层C1和三个标准卷积层C2。

具体地，本实施例中，上述空间交叉卷积层C2采用3*3的卷积，连接空间交叉卷积层C1的三个标准卷积层C2中，第一个标准卷积层采用3*3的卷积，连接第一个标准卷积层的第二个标准卷积层采用3*3的卷积，连接第二个标准卷积层的第三个标准卷积层采用1*1的卷积。

本发明的较佳的实施例中，第一修正分支201和第二修正分支202包括依次连接的第一卷积块L1、第二卷积块L2、第三卷积块L3、第四卷积块L4、第五卷积块L5和两个标准卷积层C2；

第一卷积块L1、第三卷积块L3和第五卷积块L5包括依次连接的三个标准卷积层C2；

第二卷积块L2和第四卷积块L4包括依次连接的三个卷积层，其中，第一个卷积层和第三个卷积层为标准卷积层C2，第二个卷积层为空间交叉卷积层C1。

具体地，本实施例中，上述第一卷积块L1、第三卷积块L3和第五卷积块L5中依次连接的三个标准卷积层C2中，第一个标准卷积层采用1*1的卷积，第二个标准卷积层采用3*3的卷积，第三个标准卷积层采用3*3的卷积。上述第二卷积块L2和第四卷积块L4中依次连接的三个卷积层中，第一个卷积层为1*1的标准卷积层，第二个卷积层为3*3的空间交叉卷积层，第三个卷积层为3*3的标准卷积层。上述连接第五卷积块L5的输出的两个标准卷积层C2均为1*1的卷积。

本发明的较佳的实施例中，如图3所示，空间交叉卷积层C1包括：

自适应位置编码模块C11，用于对输入特征图进行位置编码得到编码后特征图，编码后特征图中的每个像素对应标记有像素在输入特征图中的位置信息；

空间分离重组模块C12，连接自适应位置编码模块C11，用于将编码后特征图中的各通道的像素进行重组得到重组特征图，重组特征图中包含所有通道的特征信息；

深度可分离卷积模块C13，连接空间分离重组模块C12，用于对重组特征图依次进行逐通道卷积和逐点卷积处理。

具体地，考虑到标准卷积能够高效地学习输入特征图所有通道的整体特征，但是参数量多，计算量大使其在边缘设备部署时会消耗大量资源，导致网络模型推理速度大大降低，为提升网络模型推理速度需要对标准卷积进行改进，现有MobileNetV1中提出的深度可分离卷积虽然能够有效地减少卷积参数，但是其深度(depth-wise,DW)卷积仅仅学习单一通道特征，而忽略了其他通道的信息。基于此，本技术方案在深度可分离卷积的基础上，采用空间交叉卷积层分离重组了所有通道上的空间像素，在单个通道上还结合了其他通道的信息，使得在进行DW卷积的时候单个卷积核可以学习到全局通道信息。

进一步具体地，由于需要对所有通道上的空间像素进行分离重组，在进行空间交叉分离重组后后，特征图中的像素点都将离开原有的位置，会造成位置空间紊乱，这将不利于算法学习。因此，在空间分离重组之前，需要标记各个像素的位置信息。本实施例中，通过自适应位置编码模块C11对输入特征图进行位置编码，本发明的较佳的实施例中，自适应位置编码模块C11包括：

位置编码单元C111，用于将输入特征图送入3*3大小的组卷积生成位置映射特征图；

特征融合单元C112，连接位置编码单元C111，用于将输入特征图与位置映射特征图进行特征融合得到编码后特征图。

具体地，本实施例中，可以采用如下公式进行位置编码：

F₂＝F₁+GConv(F₁)

其中，GConv用于表示位置编码函数，为3*3大小的组卷积，F₁表示输入特征图，F₂表示编码后特征图。

进一步具体地，在输入特征图进行空间交叉之前，利用单层3*3大小的组卷积实现与输入特征图等比例大小的特征映射，即得到上述位置映射特征图，用来表示原输入特征图的位置信息，再将编码后的位置信息与原输入特征图进行特征融合，使得特征图的每一个像素都保留了原有的位置信息的可能性。

在进行位置编码获取标记有各像素的位置信息的编码后特征图后，随后就可以对编码后特征图进行空间分离重组。鉴于深度卷积的每一个卷积核仅仅操作与对应的组内通道而忽略了其他通道的特征，本实施例中，提出利用空间交叉法对输入特征图所有通道进行空间分离重组，实现结合所有通道的特征信息。空间交叉操作将会依次从每一个通道抽取一个像素按顺序进行重组，组合后得到的重组特征图与输入的编码后特征图的大小相同。以编码后特征图的两个通道分别包含4个像素为例，如图4所示，可以依次抽取第一通道的第一个像素、第二个通道的第一像素、第一个通道的第二个像素，第二个通道的第二个像素，即可得到第一个通道的分离重组后结果，后续依次类推。上述为从原理方面说明空间交叉分离重组的过程，在执行时，可以采用采用如下公式将编码后特征图中的各通道的像素进行重组：

F′＝T(T(F,2,3),1,3)

其中，F′用于表示重组特征图，F用于表示编码后特征图，T用于表示矩阵转置函数，1,2,3分别用于表示对应的特征图的第一维度、第二维度和第三维度。

具体地，本实施例中，基于上述公式，将编码后特征图的第二维度和第三维度进行转置后得到的转置图，再进行第一维度和第三维度的转置即可得到重组特征图。

在得到重组特征图后，随后将重组特征图送入深度可分离卷积即可完成空间交叉卷积。深度可分离卷积是一种用于代替标准卷积的操作，由Andrew等人提出。相比于标准卷积，它的计算量降低了8倍，但精度下降却很少，在计算机视觉领域得到广泛的应用。它主要由DW卷积(逐通道卷积)和逐点(Point-Wise,PW)卷积2部分组成。DW卷积是一种组卷积，其分组数与输入通道相同，即它会输出与输入通道相同的特征图。PW卷积是一组1×1的标准卷积，主要用于结合所有通道的特征信息和调整输出通道。

作为一个优选的实施方式，假设输入特征图大小为F＝[128,256,256]，卷积核大小为3*3，输出通道为128，步长为1，补零为1，分别计算标准卷积、深度可分离卷积以及空间交叉卷积的参数量和计算量，结果如下表1所示：

表1三种卷积参数量与计算量对比

通过对比发现，标准卷积的参数量与计算量最大，参数量和计算量约是深度可分离卷积8倍，而空间交叉卷积相比于深度可分离卷积，仅仅会多出一个位置信息映射层，所以参数量与计算量的差异并不大。

作为另一个优选的实施方式，可以基于COCO训练集训练得到本技术方案的网络模型(包含特征提取网络和改进的轻量级人体骨架提取网络)。以训练280轮为例，可以将训练阶段分为3个部分：第一部分为将预测阶段(refinement-stage)设置为1(即配置一个修正网络)加载MobilNetV3网络的预训练参数训练80轮并保存模型和优化器参数；第二部分为重新加载上一轮保存的参数继续训练100轮并保存模型和优化器参数；第三部分为将refinement-stage设置为3(即配置依次连接的三个修正网络)，加载上一轮保存的参数继续训练100轮。最终得到的结果如下表2所示：

表2本技术方案在COCO验证集上的性能：

从上表2中可以看出，通过改进特征提取网络和轻量级人体骨架提取网络，能够减少模型的参数量，最终在模型精度下降很小的前提下能够显著提升模型推理速度。

作为又一个优选的实施方式，本技术方案的网络模型(包含特征提取网络和改进的轻量级人体骨架提取网络)的推理部分，优选使用

ONNXRuntime推理框架，该框架是一个跨平台的机器学习模型加速器，具有灵活的接口来集成特定的硬件库，可以对不同平台上的硬件进行优化加速推理，如GPU、CPU和FPGA等。通过加速推理，将模型在测试数据上进行性能测试。截取Yutube上的2个720P的视频作为测试数据，且每个视频均超过20个姿态动作。最终的视频测试效果显示，本技术方案的网络模型推理一张720*1280的图片仅需160ms左右，而ight-weight OpenPose需要约660ms，速度提升了近4倍。在模型参数量方面，本技术方案相比于Light-weight OpenPose也降低了约22％，具体结果如下表3所示：

表3在720P视频上的推理速度对比

从上表3中可以看出，本技术方案在降低了模型参数量的同时，具备优异的FPS(推理速度)。

本发明还提供一种基于空间交叉卷积的坐姿识别方法，应用于上述的坐姿识别系统，如图5所示，坐姿识别方法包括：

步骤S2，将第一特征图送入改进的轻量级人体骨架提取网络处理得到第一特征图中包含的人体骨架图；

改进的轻量级人体骨架提取网络包括初始化网络和连接初始化网络的至少一个修正网络；

初始化网络包括第一初始化分支和第二初始化分支，均由多个标准卷积层和多个空间交叉卷积层堆叠形成，分别用于对第一特征图进行关键点定位和关键点组合以对应得到初始关键点热力图和初始部位亲和场热力图；

修正网络包括第一修正分支和第二修正分支，均由多个卷积块堆叠形成，且部分卷积块中采用空间交叉卷积层部分代替标准卷积层，分别用于对第一特征图、初始关键点热力图和初始部位亲和场热力图叠加形成的第二特征图进行关键点定位和关键点组合以对应得到修正关键点热力图和修正部位亲和场热力图，进而构建人体骨架图；

步骤S3，根据人体骨架图进行坐姿识别得到人体图像的坐姿识别结果。

本发明的较佳的实施例中，特征提取网络为添加了注意力机制的MobileNetV3网络。

本发明的较佳的实施例中，空间交叉卷积层包括：

自适应位置编码模块，用于对输入特征图进行位置编码得到编码后特征图，编码后特征图中的每个像素对应标记有像素在输入特征图中的位置信息；

空间分离重组模块，连接自适应位置编码模块，用于将编码后特征图中的各通道的像素进行重组得到重组特征图，重组特征图中包含所有通道的特征信息；

深度可分离卷积模块，连接空间分离重组模块，用于对重组特征图依次进行逐通道卷积和逐点卷积处理。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于空间交叉卷积的坐姿识别系统，其特征在于，包括：

2.根据权利要求1所述的坐姿识别系统，其特征在于，所述特征提取网络为添加了注意力机制的MobileNetV3网络。

3.根据权利要求1所述的坐姿识别系统，其特征在于，所述第一初始化分支和所述第二初始化分支包括依次连接的两个所述空间交叉卷积层和三个所述标准卷积层。

4.根据权利要求1所述的坐姿识别系统，其特征在于，所述第一修正分支和所述第二修正分支包括依次连接的第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块和两个所述标准卷积层；

5.根据权利要求1或3或4所述的坐姿识别系统，其特征在于，所述空间交叉卷积层包括：

6.根据权利要求5所述的坐姿识别系统，其特征在于，所述自适应位置编码模块包括：

7.根据权利要求5所述的坐姿识别系统，其特征在于，所述空间分离重组模块中，采用如下公式将所述编码后特征图中的各通道的所述像素进行重组：

F′＝T(T(F,2,3),1,3)

8.一种基于空间交叉卷积的坐姿识别方法，其特征在于，应用于如权利要求1-7中任意一项所述的坐姿识别系统，所述坐姿识别方法包括：

9.根据权利要求8所述的坐姿识别方法，其特征在于，所述特征提取网络为添加了注意力机制的MobileNetV3网络。

10.根据权利要求8所述的坐姿识别方法，其特征在于，所述空间交叉卷积层包括：