CN108229440A

CN108229440A - 一种基于多传感器融合室内人体姿态识别方法

Info

Publication number: CN108229440A
Application number: CN201810118798.8A
Authority: CN
Inventors: 王裕基; 裴得利
Original assignee: Beijing Olympic Mdt Infotech Ltd
Current assignee: Beijing Olympic Mdt Infotech Ltd
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2018-06-29

Abstract

本发明设计一种基于多传感器的人体姿态识别方法，属于移动机器人的室内场景识别方法。该方法包括：1)部署光学、深度和红外三个传感器2)采集同一场景三个传感器的图像并对三个传感器图像进行图像校准3)利用预先训练好的深度神经网络识别当前人体实时姿态。本发明通过机器学习和计算机视觉算法对多传感器数据进行融合处理和综合决策，解决传统基于单一传感器识别方法的诸多限制和瓶颈，大大提高了室内人体的多种姿态识别的准确性和鲁棒性。

Description

一种基于多传感器融合室内人体姿态识别方法

技术领域

本发明设计一种基于深度神经网络的多传感器融合的人体姿态识别方法，属于移动机器人的室内场景识别方法。

背景技术

在室内移动机器人的诸多关键技术中，场景的感知和交互是其中重要内容之一，也是计算机视觉的重要研究方向。这其中人体姿态识别是室内场景中的典型应用，通过对场景中人体姿态的识别，移动机器人能够进一步作出交互反应，如靠近或跟随以进行语音交互等后续操作。当前姿态识别诸多方法中，从输入形式上可分类两大类，一类以传统光学传感器为主的动作视频，或直接进行单帧图像识别，或考虑时空连续性进行动作识别，另一类则以微软Kinect SDK为代表，通过传感器获取深度信息提高动作识别的准确性。

人体姿态识别室内移动机器人场景中，识别的鲁棒性和准确性同样重要。传统单一传感器人体姿态识别方法为达到较高的识别准确性，通常对外部环境和场景有较严格的限制，而无法实现全时复杂场景的稳定识别。这些限制主要由于传感器自身特性导致，如光学传感器虽然具有成本低，部署安装等优势，但是对光线和角度等要求较高，尤其在弱光线情况下，识别效果明显降低。而深度传感器虽然相对于光学传感器能够包含深度等三维空间信息，且对光照变化更为鲁棒等，但其识别范围较小(5米以内)，自身分辨率较低，物体边缘容易产生空洞，延迟大等问题也限制了它的应用范围；红外传感器同样对光照和角度变化等相对于光学传感器更为鲁邦，但依然存在分辨率较低、纹理和色彩缺失，以及易受各种热源噪声影响等问题。三种典型传感器的特性分析和比较综合在如下表所示：

表1三种典型传感器的特性分析和比较

发明内容

本发明的目的是提出一种基于多传感器信息融合的人体姿态识别方法，采用引入注意力机制的卷积神经网络对三种模态的图像数据进行融合，实现人体姿态的有效识别。

本发明提出一种基于多传感器融合的人体姿态识别的方法，其特征在于，包括以下步骤：

步骤1：在移动机器人的头部部署光学、深度和红外三个传感器；

步骤2：控制中心控制所述传感器以一定的采样频率同步采集数据并传输到处理中心；

步骤3：处理中心对采集到的不同模态的场景数据进行图像配准和增强处理；

步骤4：处理中心对处理后的场景数据输入到深度神经网络来识别当前人体实时姿态。

本发明的目的是提出一种基于多传感器信息融合的人体姿态识别方法，具有如下优点：

1、本发明采用光学、深度、红外三种不同类型的传感器采集信息，从不同维度收集场景数据；

2、采用一种引入注意力机制的卷积神经网络对三种模态的图像数据进行融合和姿态识别。

附图说明

图1是本发明方法的人体姿态识别流程图；

图2是本发明方法的图像校准示意图；

图3是引入注意力机制的卷积神经网络结构图。

具体实施方法

本发明提出的一种基于多传感器信息融合的人体姿态识别方法，包括如下步骤：

(1)多传感器图像的获取和预处理

在t时刻，系统通过三个传感器分别获取光学图像深度图像以及红外图像预处理阶段光学图像的处理主要包括图像增强，抖动模糊预处理；深度图像的预处理主要解决空洞的平滑和填充等；红外图像的预处理主要将红外图像转化为动作识别的注意力掩码图像。

(2)图像配准

由于三个传感器在机器人上安放位置的差异导致其获取到的真实场景的角度略有差别，三幅图像并不能直接完全对应，即视差的存在。因此需要利用到图像配准技术(Image Registration)对三个传感器图像进行校正。

图像配准与相关主要目的在于比较或融合针对同一对象在不同条件下获取的图像，例如图像会来自不同的采集设备，取自不同的时间，不同的拍摄视角等等，有时也需要用到针对不同对象的图像配准问题。具体地说，对于一组图像数据集中的两幅图像，通过寻找一种空间变换把一幅图像映射到另一幅图像，使得两图中对应于空间同一位置的点一一对应起来，从而达到信息融合的目的。

图像配准如图2所示，给定两幅图像I_F(p)和I_M(p)，其中p是两幅图像空间Ω_F和Ω_M中的某一点(如上图所示)，通过寻找变换T＝Ω_F→Ω_M使得变换某一幅图后两幅图像相似程度最大：C(T，I_F，I_M)达到最大

在本方法中由于存在三个传感器，我们需分别计算光学与深度图像的变换T₁和光学与红外图像的变换T₂，对应变换后t时刻三个图像分别记为

光学图像

深度图像

红外图像

(3)引入注意力机制的卷积神经网络

经过图像配准后，我们提出一种引入注意力机制的卷积神经网络对三种模态的图像数据进行融合和姿态识别。具体来说，光学图像O_t细分为RGB 三通道图像与深度图像D_t组成四通道图像帧：

作为卷积神经网络的输入，而红外图像H_t作为注意力网络(attention net)的输入，整个网络的结构如图3所示：

整个卷积神经网络分为两部分，左侧为视觉处理模块，主要处理由 RGB-D数据组成的四通道数据，而右侧为注意力网络，其输入由红外图像预处理后转化为的注意力表示图像。

在输出层和全连接层之间是K个卷积层，每个卷积层具体包含N_i个尺寸为P_i*Q_i*N_i-1的卷积核、激活函数ReLu，以及池化(如果有)三部分，经过卷积层会产生N_i个特征图。具体来说，在第i层的第j个特征图中的一个点(x，y)可以用表示，则该处的值为

其中激活函数ReLU(*)的形式为f(x)＝max(0，x)，b_ij是当前特征图的偏差项，m是前面i-1层特征图的索引，是与第m个特征图卷积的卷积核在(p，q)位置的值。

在池化层中，假定输入的特征图的尺寸为W_i-1*H_i-1*D_i-1，池化的尺寸为F，步长为S，则输出的特征图的尺寸为W_i*H_i*D_i，其中

W_i＝(W_i-1-F)/S+1

H_i＝(H_i-1-F)/S+1

D_i＝D_i-1

最后输出层为:

O＝sigmoid(ω_O*(FC₁⊙FC₂))

其中O为一维向量，其大小与动作类别数目相同，⊙为点积操作，将两个子网络的结果融合。

Claims

1.本发明提出一种基于多传感器融合的人体姿态识别的方法，其特征在于，包括以下步骤：

本发明的实施形态，其特征是：将光学摄像头，深度传感器，和红外传感器三种不同的传感器放在部署在移动机器人的头部，并由控制中心同步采集光学图像，深度图和红外热成像图；处理中心对三种模态的场景图像进行配准处理后，通过深度神经网络进行模态融合和姿态识别。

本发明的效果在于：在深度学习框架下将三种传感器获取的场景图像进行融合识别达到鲁邦识别人体姿态的目的。它能够综合各传感器的优势，并利用他们之前的互补信息弥补他们的不足，如在光线较弱造成光学传感器无法捕捉场景信息时，利用深度和红外进行人体定位；当深度信息在物体边缘和遮挡区域出现空洞而影响识别时，红外热源信息能够进一步排除干扰，增加人体定位准确度。