CN113780205A

CN113780205A - 一种跨视角信息融合人体姿态估计与空间定位方法

Info

Publication number: CN113780205A
Application number: CN202111083798.7A
Authority: CN
Inventors: 杨鹏; 刘明; 尤天顺; 董立泉; 褚旭红; 赵跃进; 孔令琴; 惠梅
Original assignee: Yangtze River Delta Research Institute Of Beijing University Of Technology Jiaxing; Beijing Institute of Technology BIT
Current assignee: Yangtze River Delta Research Institute Of Beijing University Of Technology Jiaxing; Beijing Institute of Technology BIT
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2021-12-10
Anticipated expiration: 2041-09-14
Also published as: CN113780205B

Abstract

本发明公开了一种跨视角信息融合人体姿态估计与空间定位方法，将机器视觉图像采集系统与高精度伺服平台相结合，将固定的图像采集镜头替换为电控伺服变焦镜头，通过两套及以上云台变焦伺服运动平台实现大型运动场内对同一运动员的多目同步图像采集，扩宽了人体姿态估计技术和运动分析的应用领域。本发明使用双视角信息融合方法解决单视角采集图像方式不可避免的出现因目标肢体遮挡而导致的人体关键点位置信息丢失的问题。通过构建欠完备自编码器的方式对多粒度跨层级联网络的输出进行多视角信息融合，从而实现了不同视角下人体关键点位置信息的相互修正和补全。

Description

一种跨视角信息融合人体姿态估计与空间定位方法

技术领域

本发明属于计算机视觉与计算机控制领域，具体涉及视觉伺服跟踪技术、高精度伺服控制、人体姿态估计和跨视角信息融合等技术领域，是一种跨视角信息融合与空间定位方法。

背景技术

公开号为CN113283373A的专利申请，公开了一种用于增强深度相机检测肢体运动参数的方法，该方法使用非接触式的深度相机进行数据采集，不会对被试者产生干扰，但是由于单个深度相机视场角的限制，无法避免被试者自身肢体遮挡的影响。其次，该方法采用FC全连接层直接回归的方式，存在精度较低的问题。

公开号为CN113205595A的专利申请，公开了一种3D人体姿态估计模型的构建方法及其应用，该方法对二维骨架的时序信息进行处理，利用了不同尺度的空间特征和时序信息，但无法解决因遮挡而造成的单帧图像信息丢失的问题。

使用可变焦式多目随动系统进行图像采集可以有效解决传统机器视觉系统采集视场角与分辨率之间的矛盾，扩大图像采集范围，降低被测人员自身肢体遮挡的影响。

发明内容

针对现有技术的缺陷，本发明提供一种跨视角信息融合人体姿态估计与空间定位方法，用以解决现有技术应用范围小、检测精度低和可移植性差等问题。

为了实现上述目的，第一方面，本发明提供一种多视角信息融合姿态估计方法，包括以下步骤：

S1、相机位姿标定；在使用范围内选定包括但不限于4个标志点，使用全站仪测定标志点的空间位置，使用PNP标定方法解算相机位姿参数。

S2、构建多粒度跨层级联网络，充分利用多粒度特征融合技术和层次上下文学习思想，该网络主要分为特征编码阶段、多级特征融合阶段和特征解码阶段；

通过仿射变换将输入图像尺寸统一为512×512，根据COCO数据集的均值和方差对图像像素值进行归一化处理；

特征提取主干网络主要由三个CSP跨层连接组成，CSP跨层连接将输入和经过多个特征提取模块后的输出进行通道拼接，通道拼接采用的是卷积核尺寸为1，步长为1的卷积进行通道信息融合；

多粒度特征融合模块主要分为两个主干分支，每个主干分支由1×1卷积层构成跨层跳跃连接，将不同分支的输出进行相加得到最后的模块输出；

检测前端的主要作用是对特征编码网络的特征图进行相应的解码操作，分别得到人体位置分布热力图、边界框尺寸、偏置回归数值、关键点位置分布热力图、关键点偏置数值和关键点离散值；

S3、分离编码式多目视角信息融合；

分离编码式网络的输入为同一时刻但不同视角下拍摄得到的图像，分别表示为I₀和I₁。两张图像分别经过结构相同且共享权值的特征提取模块，特征提取模块编码得到图像的深层隐含特征，隐含特征经过特征转移通道与其他视角的隐含特征通过欠完备自编码器进行信息融合。

第二方面，本发明提供一种可变焦式多目随动图像采集方法，包括：

数量包括但不限于两套的超高清伺服电机系统，该系统分别控制二维指向机构在水平和竖直两个方向上转动；

超高清伺服电机系统放置于目标运动场地侧边，使用网线实现与处理终端的数据传输；

使用目标检测与跟踪候选框时序双向对比选择策略确定目标在图像中的位置；在系统进入跟踪模式后，自动计算目标检测候选框及目标跟踪候选框与前一帧目标位置的交并比，选择符合阈值要求的候选框为目标在图像中的位置；

超高清伺服电机系统为闭环控制系统，得到被测目标在图像中位置后，使用PID控制方法实现云台的位姿调控；

根据高精度伺服跟踪云台编码器数值与变焦镜头编码器反馈数值进行目标三维空间位置解算，并实现自动调焦。

本发明与现有技术相比具有如下有益效果：

(1)本发明提供了一种跨视角信息融合人体姿态估计与空间定位方法，将固定的图像采集镜头，替换为电控伺服变焦镜头，通过两套及以上云台变焦伺服运动平台实现大型运动场内对同一运动目标的多目同步图像采集，扩宽了人体姿态估计技术和运动分析的应用领域。这项技术同时可以用于解决目前亟需的大空间虚拟现实的空间定位问题，为大空间动态定位测量开辟一条全新的解决思路。

(2)本发明提供了一种跨视角信息融合人体姿态估计与空间定位方法，提升了卷积神经网络的平移等变性，进而提升了卷积网络对目标空间位置的编码能力，充分利用了不同粒度的图像特征信息与上下文信息，获得了更为精确的人体关键点分布热力图。

(3)本发明提供了一种跨视角信息融合人体姿态估计与空间定位方法，利用架设于不同位置的相机形成交叉视场，实现了不同视角之间人体关键点位置分布热力图的相互补全与修正，在一定程度上能够有效解决肢体之间的遮挡问题。

(4)本发明提供了一种跨视角信息融合人体姿态估计与空间定位方法，实现了运动目标空间位置的自动化测量。

附图说明

图1为本发明实施例1提供的系统架构分层设计示意图；

图2为本发明实施例1提供的随动跟踪拍摄示意图；

图3为本发明实施例1提供的目标检测与跟踪候选框时序双向对比选择策略流程图；

图4为本发明实施例1提供的高精度伺服跟踪云台示意图；

图5为本发明实施例1提供的多粒度跨层级联网络架构示意图；

图6为本发明实施例1提供的分离编码式不同视角特征融合网络结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的，附图所展示的结构是实际结构的一部分。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1、

一种跨视角信息融合人体姿态估计与空间定位方法，适用于大场景运动目标图像采集与空间位置测量，系统架构分层设计示意图如图1所示，包括以下步骤：

S1、可变焦式多目随动跟踪采集示意图如图2所示，超高清伺服电机系统带动相机跟随运动目标进行转动，为了进一步说明本发明所提供的随动跟踪图像采集方法，下面以目标检测与跟踪为例进行说明；

具体的，采用YOLO v4和SiamDW分别作为检测器和跟踪器，目标检测与跟踪候选框时序双向对比选择策略如图3所示；高精度伺服跟踪系统自动归位至起始位置，高精度伺服跟踪系统结构示意图如图4所示，该起始位置也为运动目标初始位置，系统调用YOLOv4目标检测算法对前两帧进行运动人员检测，存储运动目标在图像中的位置，并使用目标边界框初始化跟踪器1；

当跟踪器1预测置信度大于0.8但与前一帧目标框交并比小于0.3时，将计算检测器预测边界框与前一帧存储目标位置的交并比，当交并比大于0.3时使用检测结果初始化跟踪器；

当跟踪器1预测置信度小于0.8时，可认为跟踪器丢失目标，此时使用上一帧存储的目标位置初始化跟踪器2，并计算跟踪器2的预测边界框与检测器预测边界框的交并比，应用符合交并比要求的候选框初始化跟踪器1；

当连续跟踪持续20帧后，使用检测器预测边界框对跟踪器进行修正。

图像数据实时写入共享内存，并分传给显示进程、目标检测进程、跟踪进程和图像存储进程。

S2、通过特征提取网络对图像特征进行编码，生成人体关键点分布热力图，通过热力图得到人体各关键点的位置分布，结合人体的边界框得到不同个体关键点的分类组合。

具体地，特征提取主干网络由三个CSP跨层连接组成，前两个跨层连接只使用了7×7模块，减少计算量的同时减少信息丢失。跨层连接子模块之间进行了下采样操作，池化层会造成大量的信息丢失且影响卷积网络的平移等变性，所以多粒度级联网络中所有的下采样阶段没有进行池化，而是采用卷积核尺寸为3，步长为2的跨步卷积进行下采样。

优选地，为了避免了单线传播造成角点、轮廓和边界等信息的丢失，优化了梯度消失问题，使用CSP残差跨层连接模型实现了不同层次语义信息的融合，采用的是卷积核尺寸为1，步长为1的卷积进行通道信息融合。由于不同层级的特征之间存在一定程度上的语义鸿沟，为了避免简单的进行相加操作而导致模型不收敛的问题，由1×1卷积层构成跨层跳跃连接，将不同分支的输出进行相加得到最后的模块输出。这一过程可以形式化为：

其中，f_scale0表示图5中的基础模块，f_scale1表示为图4中的7×7模块，x为模块的输入特征图，

为输出特征图。

检测前端的主要作用是对特征编码网络的特征图进行相应的解码操作，分别得到人体位置分布热力图、边界框尺寸、偏置回归数值、关键点位置分布热力图、关键点偏置数值和关键点离散值，关键点特征提取网络。通过人体热力图和边界框尺寸，可以根据关键点到人体中心距离，对不同类别的人体关键点进行聚类。由于特征提取网络存在降采样操作，在标签的制作过程中存在取整和缩放操作，为了保证输出结果能够正确映射回原始输入图像尺寸，在检测前端需要预测关键点的偏置和离散值。

为了解决样本不均衡问题，采用Focal Loss作为模型训练时热力图的损失函数，Focal Loss表示为

其中N为特征图中关键点的数量，α和β为实验确定的超参数，根据实验结果α设定为2，β设定为4。

是热力图中某一通道特征图每个点的预测值，在进行损失计算之前，热力图经过Sigmod处理，并将所有点的数值限定在(1e^-4,1-1e^-4)。H_xyc表示标签热力图的相应点数值。(1-H_xyc)^β项是数值不为1每个点的权重，该权重项可以有效缓解正负样本不均匀的问题，原因是每个目标点只有一个且呈现高斯分布，目标点实际为高斯分布中响应值最大的点，其余点都将作为负样本。当在标签热力图中H_xyc＝1时，表示该位置为目标点的位置，与之相对的在相应的网络生成的热力图中，该处位置的数值

越接近于1则计算得到的损失越小，相反

越远离1权重项

越大。

需要说明的是，在制作用于训练的标签热力图时，不可避免的出现关键点存在交叠的情况，选取热力图中交叠关键点置信度的最大值而不是平均值可以有效保持峰值点的清晰，可以获得最优效果。

多粒度级联网络对图像进行了下采样，为了将特征图中得到的目标点重新映射回原图中，对于每一个目标点回归出偏移量

偏移量使用SmoothL1Loss进行训练，表示为

其中

为网络预测得到的数值。

进一步地，为了对不同视角下的关键点信息进行融合，在舍弃一定快速处理能力的情况下得到高精度的人体关键点位置，使用一种分离编码式双视角信息融合网络，该网络结果示意图如图6所示。分离编码式网络的输入为同一时刻但不同视角下拍摄得到的图像，分别表示为I₀和I₁。两张图像分别经过结构相同且共享权值的特征提取模块，特征提取模块编码得到图像的深层隐含特征，隐含特征经过特征转移通道与另一视角的隐含特征通过欠完备自编码器进行信息融合。设定视角u下的图像编码得到的热力图表示为

使用卷积核尺寸分别为1×w和1×h的卷积层对H^out进行稀疏编码得到

的特征向量，使用尺寸分别为1×w和1×h的自适应平均池化层对H^out进行稀疏编码得到

和

的特征向量，则卷积层得到的特征向量和池化层得到的特征向量融合方式为

及

其中，f为全连接层构成的欠完备自编码器，隐含层神经元数初步设定为输入神经元数量的十六分之一。自编码器可以分为由函数h＝f(x)表示的编码器和一个用于特征重构的解码器r＝g(x)两部分，欠完备自编码器则表示隐藏层h的维度小于输入的维度的自编码器。

欠完备自编码器通过隐藏层h产生编码，在双视角信息融合的训练过程中则可以学习到视角信息迁移的主元子空间，根据两个欠完备自编码器得到的特征向量，即可得到u视角下的热力图相对于视角v的融合特征图，表达式为

类似的，v视角下的热力图相对于视角u的全局置信度图为

其中H和W分别表示输入图像的高和宽，R表示特征提取模块的下采样因子。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种跨视角信息融合人体姿态估计与空间定位方法，其特征在于：包括如下步骤：

1)设计数量包括但不限于两套的高精度二维转台，与运动控制器，电机驱动器，上位机共同组成高精度伺服控制系统，并将高帧率相机固定于转台支架上。

2)实时检测并跟踪运动目标，高精度伺服控制系统驱使转台跟随运动目标转动，保证运动目标处于图像中心部位，依时序多机位同时存储运动人员图像数据与转台位姿数据。

3)使用多粒度跨层级联网络对同一时刻但不同视角的图像进行分离式编码得到图像的深层隐含特征，隐含特征经过特征转移通道与另一视角的隐含特征通过欠完备自编码器进行信息融合，得到相应视角下的人体姿态。

4)各个视角的人体姿态结合相机位姿数据得到运动目标的三维姿态。

2.如权利要求1所述的一种跨视角信息融合人体姿态估计与空间定位方法，其特征在于，高精度伺服控制系统使用超高精度伺服电机分别控制二维指向机构在水平和竖直两个方向上的转动。

3.如权利要求1所述的一种跨视角信息融合人体姿态估计与空间定位方法，其特征在于，将固定的图像采集镜头替换为具有电控伺服变焦镜头，构成云台变焦机器视觉系统，简称PTZ(Pan Tilt Zoom)，解决传统双目机器视觉系统采集视场角与分辨率之间的矛盾。

4.如权利要求1所述的一种跨视角信息融合人体姿态估计与空间定位方法，其特征在于，采用深度神经网络进行目标检测与目标跟踪，在自制的数据集和公开数据集上进行训练，实现对运动员无配合目标的检测与跟踪。

5.如权利要求1所述的一种跨视角信息融合人体姿态估计与空间定位方法，其特征在于，使用多粒度跨层级联网络对图像进行特征提取。多粒度跨层级联网络为自下而上的检测模式，通过对输入图像的编码与解码得到图像中目标人体关键点的分布热力图，多粒度跨层级联网络主要由特征编码阶段、多级特征融合阶段和特征解码阶段组成。特征提取主干网络由三个CSP跨层连接组成，前两个跨层连接只使用了7×7模块，这样可以在减少计算量的同时减少信息丢失。跨层连接子模块之间进行了下采样操作，池化层会造成大量的信息丢失且影响卷积网络的平移等变性，所以多粒度级联网络中所有的下采样阶段没有进行池化，而是采用卷积核尺寸为3，步长为2的跨步卷积进行下采样。

6.如权利要求1所述的一种跨视角信息融合人体姿态估计与空间定位方法，其特征在于，使用分离编码式方法对各个视角的信息进行融合。不同视角下的图像分别经过多粒度跨层级联网络得到图像的深层隐含特征，设定视角u下的图像的深层隐含特征表示为

和

和

的特征向量，则融合后的特征分为

和

其中，f为全连接层构成的欠完备自编码器，隐含层神经元数初步设定为输入神经元数量的十六分之一。