CN116805423B

CN116805423B - 一种基于结构重参数化的轻量级人体姿态估计算法

Info

Publication number: CN116805423B
Application number: CN202311063213.4A
Authority: CN
Inventors: 钟良琪; 周翔; 李鹏; 彭丽君; 项兰兰; 闫胜业
Original assignee: Jiangsu Yuanshi Technology Co ltd
Current assignee: Jiangsu Yuanshi Technology Co ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-11-17
Anticipated expiration: 2043-08-23
Also published as: CN116805423A

Abstract

本发明涉及计算机视觉技术领域，具体涉及一种基于结构重参数化的轻量级人体姿态估计算法，包括，本发明的基于结构重参数化的轻量级人体姿态估计算法包括：获取数据集，并进行人工标注；构建人体姿态估计模型；将进行人工标注后的数据集代入到人体姿态估计模型进行结构重参数化训练；将待检测的图像代入重参数化后的人体姿态估计模型中，得到关键点热图；将关键点热图进行坐标解码，得到关键点坐标。本发明能够解决模型参数量较多的问题，能够减少模型参数的同时不影响模型的准确性，也能够提升模型的训练速度，降低模型的开发成本。

Description

一种基于结构重参数化的轻量级人体姿态估计算法

技术领域

本发明涉及目标检测技术领域，具体涉及一种基于结构重参数化的轻量级人体姿态估计算法。

背景技术

人体姿态估计任务作为计算机视觉领域中的一个基础并且重要的任务，人体姿态估计的应用场景十分丰富，例如人机交互，通过对人体各种不同姿态的识别实现机器进行相应的控制，在如今的电影动画制作工作中，往往会涉及到很多对人体姿态进行采集的任务，传统的方法是在人体各个关键点处放置传感器进行动作采集。

现有技术中，主流的人体姿态估计方法都是通过深度学习来实现的，利用多阶段的深度卷积网络提取图片中的全局特征，利用卷积神经网络热图结构模型对人体关键点进行基于热图的回归的方法，对人体姿态进行估计。随着模型的精度的提升，姿态估计模型的参数量也在成倍地增加，随之而来的是计算成本的不断提高，这让模型的开发和应用都有更高的硬件要求。为了解决这个问题，对人体姿态估计模型的轻量化任务也就开始兴起。对于轻量级小模型来说，模型的参数量有限，模型的拟合能力相较于大模型有差距，而结构重参数化是一个十分有效的提升轻量级模型性能的方法。在训练期间采用多分支的结构，多分支可以用于将不同的输入信息整合在一起，从而提供更全面的信息表达。有助于网络更好地理解和利用输入数据的各个方面。不同的分支可以对输入数据的不同层次的特征进行提取和处理，从而充分利用深度网络的优势。这有助于网络更好地捕捉数据的细节和抽象特征，提高模型的表现能力。但是多分支必然会导致模型的参数量增加，导致模型的参数较多，模型的训练速度也会降低。

因此有必要提供新的一种基于结构重参数化的轻量级人体姿态估计算法。

发明内容

基于现有技术中存在的上述问题，本发明实施例的目的在于提供一种基于结构重参数化的轻量级人体姿态估计算法，用于解决模型参数量较多的问题，能够减少模型参数的同时不影响模型的准确性，也能够提升模型的训练速度，降低模型的开发成本。

为实现上述目的，本发明采用的技术方案是：一种基于结构重参数化的轻量级人体姿态估计算法，包括：

S1，获取数据集，并进行人工标注；

S2，构建人体姿态估计模型；

S3，将进行人工标注后的数据集代入到人体姿态估计模型进行结构重参数化训练；

S4，将待检测的图像代入结构重参数化后的人体姿态估计模型中进行推理，得到关键点热图；

S5，将关键点热图进行坐标解码，得到关键点坐标。

进一步的，S1中，所述获取数据集，包括：数据集中的图片是随机抽取的包含人体的图片，图片内容有单人，也有多人，输入图像统一为jpg格式，用数字按照顺序将图片命名，放到图片文件夹中。

进一步的，S1中，所述进行人工标注，包括：将数据集中的图片由人工利用标签标注工具对数据进行标签标注，标记出人体的16个关键点。

进一步的，S2中，所述人体姿态估计模型包括两种，一种是网络深度为18的结构重参数化高分辨率网络，另一种为网络深度为30的结构重参数化高分辨率网络。

进一步的，所述结构重参数化高分辨网络包括4类Stage，分别为Stage1、Stage2、Stage3和Stage4，Stage1中包括一个高分辨率分支，Stage2、Stage3和Stage4为递进增加的低分辨率分支。

进一步的，每个所述分辨率分支由2个结构重参数化混洗模块堆叠而成，各Stage之间用轻量级特征融合层进行连接，同类型Stage会重复叠加。

进一步的，所述结构重参数化混洗模块包括shuffle block通道拆分和通道混洗结构，所述结构重参数化混洗模块的输入F_in模块的输入F_in先通过通道拆分，将其拆分成两组特征图和/>，/>输入结构重参数化模块进行卷积，输出特征图后经过Relu激活函数后得到/>，/>与/>拼接后作为模块的最终输出。

进一步的，所述结构重参数化模块采用多分支结构，各分支依次为3×3卷积、1×1卷积、1×1卷积与3×3卷积串联和1×1卷积与池化层串联，每一路分支之后连接一个BN层为该层增加非线性，最后将各分支特征图加和后输出。

进一步的，所述轻量级特征融合层采用加权融合的方式，给各分辨率的特征图不同权重。

进一步的，所述人体姿态估计模型输出为Stage4中最高分辨率的特征图，即关键点热图。

本发明的有益效果是：本发明的基于结构重参数化的轻量级人体姿态估计算法包括：获取数据集，并进行人工标注；构建人体姿态估计模型；将进行人工标注后的数据集代入到人体姿态估计模型进行结构重参数化训练；将待检测的图像代入重参数化后的人体姿态估计模型中，得到关键点热图；将关键点热图进行坐标解码，得到关键点坐标。本发明能够解决模型参数量较多的问题，能够减少模型参数的同时不影响模型的准确性，也能够提升模型的训练速度，降低模型的开发成本。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图中：

图1为本发明实施例一提供的基于结构重参数化的轻量级人体姿态估计算法的流程图；

图2为本发明实施例一提供的结构重参数化高分辨网络的示意图；

图3为本发明实施例一提供的结构重参数化混洗模块的示意图；

图4为本发明实施例一提供的结构重参数化模块的示意图；

图5为本发明实施例一提供的轻量级特征融合层的示意图；

图6为本发明实施例一提供的结构重参数化计算方式的示意图；

图7为本发明的实施例二提供的基于结构重参数化的轻量级人体姿态估计算法的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施方式：

本发明的第一实施方式提供了一种基于结构重参数化的轻量级人体姿态估计算法，包括：获取数据集，并进行人工标注；构建人体姿态估计模型；将进行人工标注后的数据集代入到人体姿态估计模型进行结构重参数化训练；将待检测的图像代入重参数化后的人体姿态估计模型中，得到关键点热图；将关键点热图进行坐标解码，得到关键点坐标。本发明能够解决模型参数量较多的问题，能够减少模型参数的同时不影响模型的准确性，也能够提升模型的训练速度，降低模型的开发成本。

下面对本实施方式的基于结构重参数化的轻量级人体姿态估计算法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须，本实施方式的具体流程如图1所示，本实施方式应用于基于结构重参数化的轻量级人体姿态估计算法。

步骤S1，获取数据集，并进行人工标注。

具体而言，数据集中的图片是随机抽取的包含人体的图片，图片内容有单人，也有多人，输入图像统一为jpg格式，用数字按照顺序将图片命名，放到图片文件夹中。随后进行人工标注，以供步骤S3中对人体姿态估计模型进行训练。

在一些示例中，数据集中的图片是从YouTube视频网站上随机抽取的包含人体的图片，图片内容有单人，也有多人，输入图像统一为jpg格式，用数字按照顺序将图片命名，放到图片文件夹中。将数据集中的图片由人工利用标签标注工具对数据进行标签标注，标记出人体的16个关键点（包括：0－右踝关节；1－右膝关节；2－右髋关节；1－左髋关节；4－左膝关节；5－左踝关节；6－骨盆；7－胸部；8－上颈部；9－头顶；10－右腕关节；11－右肘关节；12－右肩关节；11－左肩关节；14－左肘关节；15－左腕关节），将标注信息和图片名称等信息写入json文件中，存入标注文件夹。

步骤S2，构建人体姿态估计模型。

具体而言，人体姿态估计模型包括两种，一种是网络深度为18的结构重参数化高分辨率网络，另一种为网络深度为30的结构重参数化高分辨率网络。其中，网络深度为18的结构重参数化高分辨率网络的推理速度较快；网络深度为30的结构重参数化高分辨率网络的估计精度较高。

如图2所示，结构重参数化高分辨网络包括4类Stage，分别为Stage1、Stage2、Stage3和Stage4。Stage1中包括一个高分辨率分支，Stage2，Stage3和Stage4为递进增加的低分辨率分支。

其中，每个分辨率分支由2个结构重参数化混洗模块堆叠而成，各Stage之间用轻量级特征融合层进行连接，同类型Stage会重复叠加，具体叠加次数如下表1。

表1

最终人体姿态估计模型输出为Stage4中最高分辨率的特征图，即关键点热图。

如图3所示，结构重参数化混洗模块包括shuffle block通道拆分和通道混洗结构。结构重参数化混洗模块的输入F_in模块的输入F_in先通过通道拆分，将其拆分成两组特征图和/>，/>输入结构重参数化模块进行卷积，输出特征图后经过Relu激活函数后得到/>，/>与/>拼接后作为模块的最终输出。其中，/>为恒等映射分支的特征图，/>为结构重参数化分支输入的特征图，/>为结构重参数化分支输出的特征图。

结构重参数化模块如图4所示，采用多分支结构，各分支依次为3×3卷积、1×1卷积、1×1卷积与3×3卷积串联和1×1卷积与池化层串联，每一路分支之后连接一个BN层为该层增加非线性，最后将各分支特征图加和后输出。通过各分支不同的感受野和计算路径，丰富特征空间。

其中，轻量级特征融合层如图5所示，采用加权融合的方式，给各分辨率的特征图不同权重。

在一些示例中，以Stage3为例，轻量级特征融合层中各节点计算公式为：

其中，为第三个分辨率分支的输出特征图，/>为第三个分辨率分支的输入特征图，/>为/>的下采样和的加权融合生成的特征图，/>为第二个分辨率分支的输出特征图，/>为第二个分辨率分支的输入特征图，/>为/>的下采样和/>的加权融合生成的特征图，/>为第一个分辨率分支的输出特征图，/>为第一个分辨率分支的输入特征图，/>为归一化加权融合操作，/>为特征图下采样，/>表示特征图上采样。

如果简单地给每个特征图赋予权重w_i，会因为w_i没有固定边界值而导致训练不稳定，采用归一化操作来约束权重值。归一化加权融合操作运算方式为：

其中，w_i为每一个特征图的权重，为常数。

在每个w_i之后会用ReLu函数对其进行约束，w_i>=0，=0.0001是一个防止数值不稳定的小数，该归一化操作的作用类似于Softmax，但计算效率更高。采用结构重参数化模块来替换深度可分离卷积实现下采样。上采样操作采用最近邻上采样方法。以/>为例，最终的输出公式为：

其中，为第三个分辨率分支的输出特征图，W₁为/>的权重，/>为常数，W₂为的权重，/>为/>的下采样和/>的加权融合生成的特征图，/>为第三个分辨率分支的输入特征图。

当轻量级特征融合层用于同类型Stage之间特征融合时，输入分支数和输出分支数相同，用于不同类型Stage之间的特征融合时，会增加一个transition下采样操作，用于生成一个低分辨率特征图分支，以匹配不同Stage的分支数。

步骤S3，将进行人工标注后的数据集代入到人体姿态估计模型进行结构重参数化训练。

具体而言，如图4（b）所示，在对人体姿态估计模型进行训练时，采用多分支结构直接与卷积核权重相乘，融合进卷积核中。

首先，将串联卷积结构合并为单卷积结构，然后将各分支的线性缩放参数与卷积参数逐点相乘，将最后将各分支进行重参数化，合并为单分支。从而让单支路、单张特征图的计算复杂度从O(H×W)降低到O(k_h×K_w)。其中H、W为输入特征图尺寸，k_h、K_w为卷积核尺寸。

结构重参数化训练有效性从梯度反向传播角度来分析缩放层对优化的影响。在一些示例中，一个卷积层、缩放层串联序列，CS代表conv-scale，单卷积单缩放层的前向传播公式为：

其中，CS为conv-scale，为卷积缩放层串联序列，y为卷积层的输出，W为卷积层权重，γ为缩放层参数，/>为o×i维的向量，o=1，i=C×k_h×K_w为通道数，k_h为卷积核的高，K_w为卷积核的宽。

设W_CS=yW，在反向传播中W_CS的更新规则公式为：

其中，t为层数，CS为conv-scale，为t+1层的卷积层权重，y为缩放层参数，W为卷积层权重，/>为t层的卷积层权重，η为学习率常数，W_T为t层卷积层权重转置以后的对角线元素平方后展开所构成的向量，L为损失函数，y为输出，O为高阶无穷小。

在一些示例中，多个卷积层并联，且共享一个γ时的卷积缩放序列，多卷积并联的前向传播公式为：

其中，为多个卷积并联的缩放层序列，y为输出，y为缩放层参数，M为分支数，j为各个分支的编号，W_j为第j分支的权重，x为第j分支的输入，/>为o×i维的向量。

设，对应的反向传播公式为：

其中，t为当前层数，e₁为当前层权重的维度，CS为conv-scale，为t+1层的权重，/>为t层的权重，η为学习率参数。M为分支数，T为转置，/>为t层卷积层权重转置以后的对角线元素平方后展开所构成的向量，y为缩放层参数，L为损失函数，为输出，O为高阶无穷小，M为分支数，j为每个分支的编号，W_j为第j分支的权重，x为输入，/>为第t层的权重。

如上述公式所示，若引入相同的缩放因子，多分支结构最后的优化方法会退化得和单分支一样。接下来为每一个分支引入不同的缩放因子，不同缩放层参数的前向推导公式为：

其中，为多个卷积并联的不同参数缩放层组成的序列，M为分支数，j为每个分支的编号，γ_j为不同缩放层的参数，W_j为第j分支的权重，x为输入，/>为o×i维的向量。

这种情况对应的反向传播公式为：

其中，t为当前层数，e₂为当前层权重的维度，CS为conv-scale，为t+1层的权重，/>为t层的权重，η为学习率参数。M为分支数，j为每个分支的编号，T为转置，/>为t层第j分支卷积层权重转置以后的对角线元素平方后展开所构成的向量，γ为缩放层参数，x为输入，L为损失函数，y为输出，O为高阶无穷小，/>为第j分支的权重。

当每个分支采用不同γ时，多分支的优化方向会产生多样性，不会退化为单个3×3卷积，证明了用线性缩放层替换BN层的可行性。

步骤S4，将待检测的图像代入结构重参数化后的人体姿态估计模型中进行推理，得到关键点热图。

具体而言，在将图像代入到模型中人体姿态估计模型进行推理时，推理时，通过结构重参数化的方法将各个分支融合成一个3×3卷积。首先，将两个串联分支融合为一个3×3卷积。对于1×1与3×3卷积串联分支，直接将卷积参数相乘；1×1卷积与池化层串联结构，先将池化层转化为一个3×3卷积，再将权重直接相乘，将两个卷积融合为一个3×3卷积。接着，将BN层融合到卷积核中，此时网络结构变成了特征图加权相加结构，只需将并联的卷积核按照规则相加，即可将多分支结构重参数化为单分支结构。

如图6所示，图6中的（a）部分为并联的1×1和3×3卷积的结构重参数化计算方式，模块输入为，输出为/>，3×3卷积的权重为，1×1卷积权重/>。

其中，F_in为为输入的特征图，F_out为输出的特征图，为向量，c₁为卷积核通道数，h为卷积核高度，w为卷积核宽度，/>为3×3卷积权重，/>为1×1卷积权重。

重参数化的第一步是融合卷积层和BN层，通过融合公式将μ，σ，γ，β融合入卷积的权重W和偏置b中，转变之后的结构如图6中的（a）部分。在1×1卷积核四周添加0值将其扩充为3×3大小，此时两个卷积核参数已一一对应，将两组同尺寸卷积核相加，得到一组3×3卷积核。最终模型结构如图6中的（b）部分，1×1卷积和3×3卷积的并联结构被重参数化为了一个3×3卷积。最终结果如图6中的（c）部分，实现了训练和推理网络模型的解耦。其中，融合公式为：

其中，i为样本的编号，为等效权重，γ为BN层的第一个学习参数，σ为样本的方差，W_i为原始卷积层权重，/>为等效的总体偏置，μ为样本的均值，β为BN层的第二个学习参数（偏置）。步骤S5，将关键点热图进行坐标解码，得到关键点坐标。

具体而言，就是每个关键点对应于特征图上的一个通道。这些热图通常表示关键点的概率分布，即每个像素处关键点存在的可能性。在每个热图通道上，可以通过寻找像素值最高的位置来找到关键点的候选位置。

第二实施方式：

本发明的第二实施方式提供了一种网络侧服务端，如图7所示，包括至少一个处理器301；以及，与至少一个处理器301通信连接的存储器302；其中，存储器302存储有可被至少一个处理器301执行的命令，指令至少被一个处理器301执行，以使至少一个处理器301能够执行上述的数据处理方法。

其中，存储器302和处理器301采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器301和存储器302的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器301。

处理器301负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器302可以被用于存储处理器301在执行操作时所使用的数据。

第三实施方式：

本发明的第四实施方式提供了一种计算机读存储介质，存储有计算机程序。计算机程序被处理器执行时实现第一实施方式中的基于结构重参数化的轻量级人体姿态估计算法。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备（可以是单片机，芯片等）或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于结构重参数化的轻量级人体姿态估计算法，其特征在于，包括：

S1，获取数据集，并进行人工标注；

S2，构建人体姿态估计模型；

S5，将关键点热图进行坐标解码，得到关键点坐标；

所述人体姿态估计模型包括两种，一种是网络深度为18的结构重参数化高分辨率网络，另一种为网络深度为30的结构重参数化高分辨率网络；所述结构重参数化高分辨网络包括4类Stage，分别为Stage1、Stage2、Stage3和Stage4，Stage1中包括一个高分辨率分支，Stage2、Stage3和Stage4为递进增加的低分辨率分支；每个分辨率分支由2个结构重参数化混洗模块堆叠而成，各Stage之间用轻量级特征融合层进行连接，同类型Stage会重复叠加；结构重参数化混洗模块包括shuffle block通道拆分和通道混洗结构；结构重参数化混洗模块的输入F_in模块的输入F_in先通过通道拆分，将其拆分成两组特征图和/>，/>输入结构重参数化模块进行卷积，输出特征图后经过Relu激活函数后得到/>，/>与/>拼接后作为模块的最终输出；其中，/>为恒等映射分支的特征图，/>为结构重参数化分支输入的特征图，/>为结构重参数化分支输出的特征图；结构重参数化采用多分支结构，各分支依次为3×3卷积、1×1卷积、1×1卷积与3×3卷积串联和1×1卷积与池化层串联，每一路分支之后连接一个BN层为该层增加非线性，最后将各分支特征图加和后输出；

所述将进行人工标注后的数据集代入到人体姿态估计模型进行结构重参数化训练，包括：在对人体姿态估计模型进行训练时，采用多分支结构直接与卷积核权重相乘，融合进卷积核中；首先，将串联卷积结构合并为单卷积结构，然后将各分支的线性缩放参数与卷积参数逐点相乘，将最后将各分支进行重参数化，合并为单分支；从而让单支路、单张特征图的计算复杂度从O(H×W)降低到O(k_h×K_w)；其中H、W为输入特征图尺寸，k_h、K_w为卷积核尺寸；

所述将待检测的图像代入结构重参数化后的人体姿态估计模型中进行推理，得到关键点热图，包括：在将图像代入到模型中人体姿态估计模型进行推理时，推理时，通过结构重参数化的方法将各个分支融合成一个3×3卷积；首先，将两个串联分支融合为一个3×3卷积；对于1×1与3×3卷积串联分支，直接将卷积参数相乘；1×1卷积与池化层串联结构，先将池化层转化为一个3×3卷积，再将权重直接相乘，将两个卷积融合为一个3×3卷积；接着，将BN层融合到卷积核中，此时网络结构变成了特征图加权相加结构，只需将并联的卷积核按照规则相加，即可将多分支结构重参数化为单分支结构。

2.根据权利要求1所述的基于结构重参数化的轻量级人体姿态估计算法，其特征在于，S1中，所述获取数据集，包括：数据集中的图片是随机抽取的包含人体的图片，图片内容有单人，也有多人，输入图像统一为jpg格式，用数字按照顺序将图片命名，放到图片文件夹中。

3.根据权利要求1所述的基于结构重参数化的轻量级人体姿态估计算法，其特征在于，S1中，所述进行人工标注，包括：将数据集中的图片由人工利用标签标注工具对数据进行标签标注，标记出人体的16个关键点。

4.根据权利要求1所述的基于结构重参数化的轻量级人体姿态估计算法，其特征在于，所述轻量级特征融合层采用加权融合的方式，给各分辨率的特征图不同权重。

5.根据权利要求1所述的基于结构重参数化的轻量级人体姿态估计算法，其特征在于，所述人体姿态估计模型输出为Stage4中最高分辨率的特征图，即关键点热图。