CN112836652A

CN112836652A - 一种基于事件相机的多阶段人体姿态估计方法

Info

Publication number: CN112836652A
Application number: CN202110167202.5A
Authority: CN
Inventors: 邵展鹏; 胡超群; 刘鹏
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-25
Anticipated expiration: 2041-02-05
Also published as: CN112836652B

Abstract

一种基于事件相机的多阶段人体姿态估计方法，包括以下步骤：1)将事件相机的稀疏事件流积累成图像帧；2)通过深度卷积与反卷积网络模块提取一帧图像的高分辨率特征图；3)通过长短期记忆网络LSTM建立视频中各帧之间的时序依赖关系，并生成每一帧的关节预测热图；4)通过时序跳跃链式结构建立基于历史热图的多阶段姿态估计方法；5)通过权重配比学习，对历史阶段的热图进行权重选择。本发明同时考虑人体运动图像上下文关系，并结合一个多阶段的深度网络模型来解决运动造成的图像缺失问题，从而提高事件视频中人体姿态估计的准确度和精度。

Description

一种基于事件相机的多阶段人体姿态估计方法

技术领域

本发明属于计算机视觉领域中人体姿态估计任务，具体涉及一种基于事件相机的多阶段人体姿态估计方法。

背景技术

人体姿态估计作为动作识别、姿势跟踪、人机交互等诸多视觉任务的基础而成为了当前热门研究领域之一。它具有广泛的应用前景，包括虚拟现实，智能监控以及机器人等领域。当前随着深度学习和计算力的快速发展，基于传统相机的人体姿态估计已取得了较好的性能。但是在计算性能有限的移动设备上，当前主流的人体姿态估记算法无法达到实时性的要求。此外，在光照不良的环境下，传统相机的不良成像会直接导致现有姿态估计方法的失效。相比于基于帧成像的传统相机，事件相机是一种仿生相机传感器，仅当环境中有光强变化时，图像的相应位置才会被触发输出脉冲事件信号。与传统的相机输出同步帧相反，事件相机输出的信号是一种异步事件序列信号，具有宽的动态范围、稀疏性、低延时、高实时性特点。因此，事件相机能够实时地输出稀疏的运动边缘信息。利用边缘运动信息将能加速人体姿态的视觉信息获取，使得即使在光照不良的环境下仍能实现人体姿态的实时估计。

人体姿态估计是视频动作和行为理解的关键技术之一。针对视频序列中的每一帧图像，姿态估计应能自动准确地预测人体关节点在图像中的位置。当前，研究者们已提出了众多有效的人体姿态估计方法。然而，基于事件相机稀疏事件流的姿态估计方法却很少。如何解决基于事件相机的人体姿态估计问题是当前研究的重点。更具体来说，如何解决事件相机的稀疏数据中存在部分信息缺失问题，以及由此带来的人体姿态估计误差，是当前技术难点。例如，人体的静态部位会导致事件相机无法捕捉到其关节点信息，无法进行相应关节点的位置预测。

发明内容

为了克服已有技术的不足，本发明提出一种基于事件相机的多阶段人体姿态估计方法，该方法同时考虑人体运动图像上下文关系，并结合一个多阶段的深度网络模型来解决运动造成的图像缺失问题，从而提高事件视频中人体姿态估计的准确度和精度。

本发明解决其技术问题所采用的技术方案是：

一种基于事件相机的多阶段人体姿态估计方法，包括以下步骤：

1)将事件相机的稀疏事件流积累成图像帧，过程如下：

使用设定固定事件数作为滑动窗口扫描异步输出的事件流信号，将一个窗口内的所有事件流投影到大小为256*256的平面，积累生成单帧图像，此基于固定事件数的图像生成方式可以保证图像之间事件分布的均匀，不会造成个别图像帧过于稀疏或者过于密集的问题；

2)通过深度卷积与反卷积网络模块提取一帧图像的高分辨率特征图，过程如下：

将一帧图像输入到深度卷积与反卷积网络模块，经过卷积与反卷积提取图像特征，该网络模块在卷积部分采用ResNet残差神经网络作为骨干网络，能够在加深网络的同时减少梯度消失产生；此后，通过增加三层反卷积层进行特征的高分辨率特征恢复，生成高分辨率特征图；

3)通过长短期记忆网络LSTM建立视频中各帧之间的时序依赖关系，并生成每一帧的关节预测热图，过程如下：

在一个事件视频中，利用上述深度卷积与反卷积网络模块提取每一帧的特征图，然后利用LSTM网络模块建模此视频中各帧特征图之间的时序依赖关系；最后，使用一个卷积网络作为关节热图生成器，即将每一帧的LSTM单元输出连接到该卷积网络生成热图，其中，该卷积网络包括3个卷积层、激活层和池化层；

4)通过时序跳跃链式结构建立基于历史热图的多阶段姿态估计方法；

5)通过权重配比学习，对历史阶段的热图进行权重选择，过程如下：

使用和热图大小相同的矩阵保存权重配比(Temporal Attention Weights)，通过基于反向传播的网络模型学习，自动更新比重(TAW)，用于学习各个历史阶段热图对当前阶段的姿态预测的重要性；因此，当前阶段的姿态预测并不是简单的继承所有历史阶段的信息，而是通过权重配比来有选择的继承历史阶段信息，保证赋予相似度高的历史帧更高权重，忽略相似度低的历史帧。

进一步，所述步骤4)的过程如下：

使用多阶段机制来完成估计结果不断精确化的过程，其中一个关键策略是将先前阶段帧的热图传到下一个阶段帧，并监督所有阶段的损失函数。

此方法需要连接的有三个部分：上一帧生成的热图，当前帧输入的深度特征和上一帧LSTM的输出；

基于步骤2)与3)，多阶段姿态估计方法共分为5个阶段，对应输入视频中5个连续的事件帧，当前阶段(帧)的LSTM单元输入是其当前阶段特征图与所有历史阶段的生成热图的融合；由于第1个阶段没有历史热图信息，所以采用一个初始化的深度卷积与反卷积网络模块直接生成关节预测热图，作为第1阶段的初始历史热图与当前阶段提取的特征图进行融合；第2阶段LSTM单元的输入是第1阶段生成的热图与当前阶段提取的特征图的融合；第3阶段LSTM单元的输入是第 1阶段和第2阶段生产的热图与当前阶段提取的特征图的融合，以此类推，第4-5阶段是同样的时序跳跃链式结构；为了获得更准确的初始化热图特征信息，在第1阶段的热图初始化卷积与反卷积网络模块中，采用更深层次的ResNet34作为网络骨架；第2-5阶段利用了所有历史热图信息，所以使用相对浅层的ResNet18作为深度卷积与反卷积模块的网络骨架，用于加快模型的训练和预测；

所有阶段通过数学公式表达：

如公式所示，将所有过程分为T个阶段，其中第1个阶段和后续的阶段用不同公式表达，X_t是图像帧输入，

是基于残差网络 ResNet的卷积网络，F(·)是反卷积网络，其将卷积网络的低分辨率特征图像转换为高分辨率特征图像，

是LSTM网络；最后，使用卷积层g将LSTM输出特征转换为热图特征。

本发明中，将深度卷积与反卷积网络模块做为主干网络结构提取图像特征，使用LSTM网络建立多帧间的时序依赖关系，通过时序跳跃链式结构建立基于历史热图的多阶段姿态估计方法，处理基于稀疏事件流的人体姿态估计。

本发明的有益效果主要表现在：针对基于事件相机的人体姿态估计问题，发明提出了一种新颖的基于多阶段级联网络的姿态估计方法。该方法针对事件相机的稀疏流数据，加入了时间域上的多阶段历史选择继承，将历史不同阶段的预测热图配置不同的权重配比，融合到当前阶段的姿态估计中，有效的选择了当前帧的相似帧进行特征的继承与遗忘，最大程度的弥补事件相机忽略静态人体部件带来的精度问题。

附图说明

图1是事件相机数据可能出现的关节点消失情况。

图2是本发明的多阶段网络结构图。

图3是本发明中的单阶段结构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于事件相机的多阶段人体姿态估计方法，包括以下步骤：

1)将事件相机的稀疏事件流积累成图像帧，过程如下：

使用7500个固定事件数作为滑动窗口扫描异步输出的事件流信号，将一个窗口内的所有事件流投影到大小为256*256的平面，积累生成单帧图像。此基于固定事件数的图像生成方式可以保证图像之间事件分布的均匀，不会造成个别图像帧过于稀疏或者过于密集的问题。

将一帧图像输入到深卷积与反卷积网络模块，经过卷积与反卷积提取图像特征(图2中的ConvNet1和ConvNet2模块)。该网络模块在卷积部分采用ResNet残差神经网络作为骨干网络，能够在加深网络的同时减少梯度消失产生。此后，通过增加三层反卷积层进行特征的高分辨率特征恢复，生成高分辨率特征图

在一个事件视频中，利用上述深度卷积与反卷积网络模块(参数共享)提取每一帧的特征图，然后利用LSTM网络模块(图2中的LSTM 模块)建模此视频中各帧特征图之间的时序依赖关系。最后。使用一个卷积网络(图2中的ConvNet3模块)作为关节热图生成器，即将每一帧的LSTM单元输出连接到该卷积网络生成热图。其中，该卷积网络包括3个卷积层、激活层和池化层。

4)通过时序跳跃链式结构建立基于历史热图的多阶段姿态估计方法，过程如下：

图1展示了几个积累成帧的图像实例，其在某些帧中存在关节点消失的问题。如图2所示，我们使用多阶段网络来完成估计结果不断精确化的过程。本方法使用多阶段机制来完成估计结果不断精确化的过程，其中一个关键策略是将先前历史阶段帧的热图传到当前阶段帧，并监督所有阶段的损失函数(该机制如图3所示)。

此方法需要连接的有三个部分：上一帧生成的热图，当前帧输入的深度特征和上一帧(阶段)LSTM的输出。

具体来讲，基于2)与3)步骤，多阶段姿态估计方法共分为5个阶段，对应输入视频中5个连续的事件帧。当前阶段(帧)的LSTM 单元输入是其当前阶段特征图与所有历史阶段的生成热图的融合。由于第1个阶段没有历史热图信息，所以采用一个初始化的深度卷积与反卷积网络模块直接生成关节预测热图，作为第一阶段的初始历史热图与当前阶段提取的特征图进行融合。第2阶段LSTM单元的输入是第 1阶段生成的热图与当前阶段提取的特征图的融合。第3阶段LSTM单元的输入是第1阶段和第2阶段生产的热图与当前阶段提取的特征图的融合。以此类推，第4-5阶段是同样的时序跳跃链式结构。为了获得更准确的初始化热图特征信息，在第一阶段的热图初始化卷积与反卷积网络模块中，我们采用更深层次的ResNet34作为网络骨架；第 2-5阶段利用了所有历史热图信息，所以使用相对浅层的ResNet18作为深度卷积与反卷积模块的网络骨架，用于加快模型的训练和预测。

所有阶段可以通过数学公式表达：

是基于残差网络 ResNet的卷积网络，F(·)是反卷积网络，其将卷积网络的低分辨率特征图像转换为高分辨率特征图像。

使用和热图大小相同的矩阵保存权重配比(Temporal Attention Weights)，通过基于反向传播的网络模型学习，自动更新比重(TAW)，用于学习各个历史阶段热图对当前阶段的姿态预测的重要性。因此，当前阶段的姿态预测并不是简单的继承所有历史阶段的信息，而是通过权重配比来有选择的继承历史阶段信息，保证赋予相似度高的历史帧更高权重，忽略相似度低的历史帧。具体网络结构连接可以参考图2。

经过上述步骤的操作，可实现基于事件相机的的人体姿态估计。

以上结合附图所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例，用于解释本发明，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于事件相机的多阶段人体姿态估计方法，其特征在于，所述方法包括以下步骤：

1)将事件相机的稀疏事件流积累成图像帧，过程如下：

使用设定固定事件数作为滑动窗口扫描异步输出的事件流信号，将一个窗口内的所有事件流投影到大小为256*256的平面，积累生成单帧图像；

使用和热图大小相同的矩阵保存权重配比，通过基于反向传播的网络模型学习，自动更新比重，用于学习各个历史阶段热图对当前阶段的姿态预测的重要性；因此，当前阶段的姿态预测并不是简单的继承所有历史阶段的信息，而是通过权重配比来有选择的继承历史阶段信息，保证赋予相似度高的历史帧更高权重，忽略相似度低的历史帧。

2.如权利要求1所述的一种基于事件相机的多阶段人体姿态估计方法，其特征在于，所述步骤4)的过程如下：

使用多阶段机制来完成估计结果不断精确化的过程，其中一个关键策略是将先前阶段帧的热图传到下一个阶段帧，并监督所有阶段的损失函数；

基于步骤2)与3)，多阶段姿态估计方法共分为5个阶段，对应输入视频中5个连续的事件帧，当前阶段的LSTM单元输入是其当前阶段特征图与所有历史阶段的生成热图的融合；由于第1个阶段没有历史热图信息，所以采用一个初始化的深度卷积与反卷积网络模块直接生成关节预测热图，作为第1阶段的初始历史热图与当前阶段提取的特征图进行融合；第2阶段LSTM单元的输入是第1阶段生成的热图与当前阶段提取的特征图的融合；第3阶段LSTM单元的输入是第1阶段和第2阶段生产的热图与当前阶段提取的特征图的融合，以此类推，第4-5阶段是同样的时序跳跃链式结构；为了获得更准确的初始化热图特征信息，在第1阶段的热图初始化卷积与反卷积网络模块中，采用更深层次的ResNet34作为网络骨架；第2-5阶段利用了所有历史热图信息，所以使用相对浅层的ResNet18作为深度卷积与反卷积模块的网络骨架，用于加快模型的训练和预测；

所有阶段通过数学公式表达：

是基于残差网络ResNet的卷积网络，F(·)是反卷积网络，其将卷积网络的低分辨率特征图像转换为高分辨率特征图像，