CN117253283A

CN117253283A - 基于图像信息与电磁定位信息数据融合的轮椅跟随方法

Info

Publication number: CN117253283A
Application number: CN202310999572.4A
Authority: CN
Inventors: 彭路; 李小龙
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-12-19

Abstract

基于图像信息与电磁定位信息数据融合的轮椅跟随方法，它包括以下步骤：步骤1：获取目标人体全身图像；步骤2：对获取的人体全身图像进行预处理；步骤3：采用Resnet50网络对被跟随者步态信息进行识别；步骤4：使用技术获取被跟随者的定位信息；步骤5：将由步骤3获取的信息以及由步骤4获取的信息进行数据融合，对电机发出控制，以实现跟随。本发明的目的是提供基于优化步态识别和UWB技术的轮椅跟随方法，利用改进的Resnet50网络识别人体的步态信息与主控接收到的定位标签信息做数据融合，然后主控在对轮椅的电机发出控制，以实现轮椅的安全跟随。

Description

基于图像信息与电磁定位信息数据融合的轮椅跟随方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种通过改进的Resnet50网络对人体步态进行识别的基于图像信息与定位信息数据融合的轮椅跟随方法。

背景技术

随着各国人口的老年化逐年加剧，腿脚不便的老年人的激增，老年人的看护需求得不到补足，因此如何保障老年人和处于康复阶段的人群的生活质量迫在眉睫。对于他们来说，长时间的躺卧和久坐不利于他们的身心健康，所以一款能够在他们短暂行走活动时跟随自己的轮椅尤为重要。

在现有技术中，2021年第10期《计算机工程与应用》刊登的李艳等的论文“基于计算机视觉的轮椅跟随系统设计”利用自适应高斯混合建模和基于多特征融合的粒子滤波跟踪算法对目标进行跟随，但是在复杂情况目标丢失后，重新检测目标需要大约14s，此过程太漫长。2018年第9期《计算机测量与控制》刊登的杨怡等的论文“基于模糊控制的轮椅自主跟随与避障系统”利用模糊控制方法，建立模糊控制规划来实现跟随，但是其定位方法存在较大误差，在复杂情况下轮椅与目标的角度和距离偏差最大达到47°和88cm。

上述现有的轮椅跟随技术存在三个问题：

1)目标丢失后重新检测时间长；

2)目标定位还存在较大误差；

3)轮椅在跟随过程中不能很好保持直线姿态跟随。

为了提供一种更优的轮椅跟随技术，申请人提出一种基于图像信息与定位信息数据融合的轮椅跟随方法。

发明内容

本发明的目的是提供基于优化步态识别和UWB技术的轮椅跟随方法，利用改进的Resnet50网络识别人体的步态信息与主控接收到的定位标签信息做数据融合，然后主控在对轮椅的电机发出控制，以实现轮椅的安全跟随。

为了解决上述技术问题，本发明采用的技术方案为：

基于图像信息与电磁定位信息数据融合的轮椅跟随方法，它包括以下步骤：

步骤1：获取目标人体全身图像；

步骤2：对获取的人体全身图像进行预处理；

步骤3：采用Resnet50网络对被跟随者步态信息进行识别；

步骤4：使用UWB技术获取被跟随者的定位信息；

步骤5：将由步骤3获取的信息以及由步骤4获取的信息进行数据融合，对电机发出控制，以实现跟随。

在步骤2中，包括以下步骤：

步骤2-1：对获取的图像进行降噪处理；

步骤2-2：对降噪后的图像进行分割；

步骤2-3：对由步骤2-2获取的图像进行归一化处理；

在步骤2-2中，采用帧间差分法对人体全身图像进行分割，具体包括以下步骤：

步骤2-2-1)由下式获取差分图像

I_n(x,y)＝|f_n(x,y)-f_n-1(x,y)|

其中，I_n(x,y)为计算的差分图像结果，f_n(x,y)为第n帧坐标(x,y)的灰度值，f_n-1(x,y)为第n-1帧坐标(x,y)的灰度值；

步骤2-2-2)对由步骤2-2-1)所获取的图像通过差分图像的灰度值做二值化处理；

其中T为所设置的阈值，当图像对应灰度值差值的绝对值小于阈值时，将此坐标灰度值设置为0，当图像灰度值差值的绝对值大于阈值时，将此坐标灰度值设置为255；通过此方式就可以将动态的人体分割出来，以便下一步对图像进行处理，通过大量实验，将阈值设置为25综合效果最好，若阈值小于25，图像会存在一定数量的噪声，此噪声由分割操作产生而来，若阈值大于25，图像噪声会减少，但是人体内部会出现空洞，影响分割效果，综合考虑使用25作为分割阈值，分割效果最佳。

在步骤3中，所采用的Resnet50的网络结构为：

第一阶段，卷积层→CBAM注意力机制模块→最大池化层；

第二阶段，第二阶段残差块第一个卷积层→第二阶段残差块第二个卷积层→第二阶段残差块第三个卷积层→两个第二阶段残差块；

第三阶段，第三阶段残差块第一个卷积层→第三阶段残差块第二个卷积层→第三阶段残差块第三个卷积层→三个第三阶段残差块；

第四阶段，第四阶段残差块第一个卷积层→第四阶段残差块第二个卷积层→第四阶段残差块第三个卷积层→五个第四阶段残差块；

第五阶段，第五阶段残差块第一个卷积层→第五阶段残差块第二个卷积层→第五阶段残差块第三个卷积层→两个第五阶段残差块；

CBAM注意力机制模块→平均池化层→Flatten层→全连接层→softmax函数；

输入特征输入第一阶段的输入端，第一阶段的输出端连接至第二阶段的输入端，第二阶段的输出端连接至第三阶段的输入端，第三阶段的输出端连接至第四阶段的输入端，第四阶段的输出端连接至第五阶段的输入端，第五阶段的输出端连接至CBAM注意力机制模块。

该模型在工作时，采用以下步骤：

1)将预处理的过后的步态能量图放入网络中，使用卷积层对图像信息进行初步提取，通过CBAM注意力机制模块使网络更关注所识别对象；

2)将初步提取到的信息输入到后续卷积层中，在第二个阶段经历9次卷积，第三个阶段经历12次卷积，第四个阶段经历18次卷积，第五个阶段经历9次卷积，从阶段二到阶段五一共卷积48次，以获取更深层信息；

3)将提取出的深层多维信息再次输入到注意力机制模块中，接着通过池化层和Flatten层，将数据一维化，然后通过全连接层，最后通过softmax函数得到识别结果。

在步骤3中，对被跟随者步态信息进行识别时，采用以下步骤：

步骤3.1：对预处理过后的图片进行收集，并采用下式获取步态能量图G(x,y)；

式中N为步态周期的帧数，B_t(x,y)为图像t时刻在像素点(x,y)的像素值；

步骤3.2：将步态能量图放入预先训练好的网络运行，通过softmax分类器对人物进行分类，确定人物身份信息；

步骤3.3：确定人物身份后，对人物进行锚框和标注；

所述标框策略为：使用预处理过后的图片，首先确定二值化图像中人物的中心点(x₁,y₁)，接着计算人物白像素点的宽度W和高度H；然后在原始图像上以人物中心点(x₁,y₁)为中心，宽度为W，高度为H进行画框，并将人物的相关信息标注在框旁边；

对画出框使用IOU阈值匹配来减少候选框的数量，提升锚框的准确性；

IOU的定义为：

式中，A,B代表两个候选框；IOU表示两个框的面积的交集和并集之比；

步骤3.4：对人物框执行卡尔曼滤波算法进行屏幕跟踪；

卡尔曼滤波预测方程如下：

其中x_k和x_k-1分别表示k-1时刻和k时刻的估计值，A_k为状态转移矩阵，B_k为控制矩阵，u_k为控制向量，P_k-1和P_k分别为k-1和k时刻的协方差，为k时刻先验估计协方差，Q为预测模型带来的噪声；

卡尔曼滤波的状态更新方程如下：

其中K_k为卡尔曼系数，H为转换矩阵，R为测量噪声协方差，z_k为测量值。

在步骤4中，在被跟踪者以及轮椅上均安装UWB模块，通过UWB模块发送电费定位信息获取被跟随者和轮椅的相对距离以及角度。

在步骤5中，由步骤3获取的信息具体为：步骤3所标注的框需要保持在屏幕的正中央，标注框的中心与中心的距离即为需要修正的偏差，这部分偏差就是被跟随者的方位信息；

由步骤4获取的信息具体为：来自于UWB模块提供的相对距离以及角度信息；

在进行数据融合时，采用以下公式：

式中，P为跟随方位，S₁为步骤3中摄像头提供的被跟随者方位，S₂为步骤4UWB技术提供的被跟随者方位，λ为图像中被跟随者识别的置信度。

与现有技术相比，本发明具有如下技术效果：

1)本发明在采集人体图像后，使用改进的Resnet50网络对人体步态进行识别，改进的Resnet50提高了对步态识别的效率以及准确度。而且添加了卡尔曼滤波对目标图像进行跟随，可以极大提高图像识别的准确度，以及抗干扰能力，在出现遮挡时，也可以通过预测值进行跟随，从而提升轮椅跟随的鲁棒性；

2)本发明采用摄像头图像采集加高精度定位技术结合的方式实现轮椅跟随，摄像头和定位模块都会发来被跟随者的方位信息，通过摄像头识别的步态信息的置信度来划分两者信息的权重，从而对两项数据做数据融合，进而实现轮椅的稳定跟随。由于只用摄像头识别会出现遮挡物干扰，光线强弱干扰等问题造成跟随出现误差，而只用定位模块跟随出现轮椅头部不能正对着被跟随者进行跟随，会出现一定的偏差，而本发明将两者结合起来，可以很好的克服两者的缺点，从而使轮椅可以稳定的在被跟随者身后进行稳定跟随。

附图说明

下面结合附图和实施例对本发明作进一步说明：

图1为本发明的整体流程示意图；

图2为Resnet50模型的结构示意图；

图3为本发明中改进的Resnet50模型的结构示意图；

图4为本发明实施例中所获取的人体步态能量效果示意图；

具体实施方式

一种基于图像信息与定位信息数据融合的轮椅跟随方法，包括以下步骤：

步骤1：拍摄人体全身图像。

拍摄需要采用较为高清的1080P摄像头，在拍摄时，需要将摄像头置于轮椅的上方，以便摄像头可以拍摄到人体的全身。

步骤2：对拍摄图像进行预处理。

实施例中的预处理方式为：首先对图像进行噪声处理，由于在摄像头运行的过程中，会受到电子元器件与电路结构的影响，产生高斯白噪声，它的幅度分布服从高斯分布，而它的功率谱密度又是均匀分布的。所以使用高斯滤波对图像进行降噪处理。

其次，对于降噪后的图片，需要对人体进行分割，由于图像是在人运动过程中进行采集的，摄像机采集的视频序列具有连续性的特点，若场景存在运动目标时，连续的帧与帧之间会存在明显的变化，所以实施例中使用的分割方式为帧间差分法，其核心思想是对时间上连续两帧图像进行差分运算，不同的帧对应的像素点进行相减，从而计算出灰度差的绝对值，当此绝对值超过一定的阈值时，就可以判断为运动目标，从而可以实现人体检测的功能。具体计算方式如下所示：

1)计算差分图像

I_n(x,y)＝|f_n(x,y)-f_n-1(x,y)|

其中，I_n(x,y)为计算的差分图像结果，f_n(x,y)为第n帧坐标(x,y)的灰度值，f_n-1(x,y)为第n-1帧坐标(x,y)的灰度值。

2)通过差分图像的灰度值做二值化处理

其中T为所设置的阈值，当图像对应灰度值差值的绝对值小于阈值时，将此坐标灰度值设置为0，当图像灰度值差值的绝对值大于阈值时，将此坐标灰度值设置为255。通过此方式就可以将动态的人体分割出来，以便下一步对图像进行处理。通过大量实验，将阈值设置为25综合效果最好，若阈值小于25，图像会存在一定数量的噪声，此噪声由分割操作产生而来。若阈值大于25，图像噪声会减少，但是人体内部会出现空洞，影响分割效果，综合考虑使用25作为分割阈值，分割效果最佳。

然后对二值化图片的大小做归一化处理，目的是减少边框大小对识别结果造成影响，大的边框和小的边框都被同等看待，训练也更容易收敛。通过如下公式计算缩放比例：

P＝min(w′/w,h′/h)

其中P为图像缩放比例，w′为缩放后宽度，w为原始图像宽度。h′为缩放后高度，h为原始图像高度。

步骤3：采用改进Resnet50网络对被跟随者步态信息进行识别

如图2所示，Resnet50网络包括49个卷积层和1个全连接层，其中第2至第5阶段中，每个阶段均包含若干个残差块，一个残差块又包含3个卷积层，例如第二阶段，包含3个残差块和9个卷积层。因此整个网络中含有1+3×(3+4+6+3)＝49个卷积层。图2中，maxpool为最大池化层，目的是降维、减少数据的计算量。relu为非线性激活函数，目的是增强神经网络各层之间的非线性关系。average pool为均值池化层，在Resnet50网络最后引入全局均值池化目的是其正则化作用，防止整体结构过拟合。Flatten层是将数据展平，把多维数据一维化。FC为全连接层，通过计算，相应类别的概率最后通过softmax分类器进行输出。

在残差网络中，假设一个卷积模块的目标期望函数为h(x)，可以被分解为

h(x)＝x+f(x)

其中x为输入变量自身，f(x)＝h(x)-x表示目标函数与输入变量的差值，即残差函数。

如图3所示，本发明采用改进的Resnet50网络模型对人体步态进行识别，在原有的Resnet50的基础上引入注意力机制模块CBAM，CBAM是一种结合了空间和通道卷积注意力机制模块，输入图像首先会通过一个通道注意力模块，得到加权结果之后，会再通过一个空间注意力模块，最终的进行加权得到结果。

其中，通道注意力机制的表达式为：

M_c(F)＝σ(MLP(AvgPool(F)+MLP(MaxPool)))

式中σ为Sigmoid函数，MLP表示为多层感知器，AvePool为平均池化层，MaxPool为最大池化层。

空间注意力机制的表达式：

M_s(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)]))

式中，σ表示Sigmoid函数，7×7代表卷积核大小。

本发明引入CBAM注意力机制模块，对原有Resnet50网络进行改进，在Resnet50的第一阶段第一个卷积之后，以及第五阶段最后一个卷积之后引入注意力机制模块，目的是为了让网络更加关注所感兴趣的区域，使网络更加有侧重点，提高训练精确度。

步骤3的具体实施过程如下：

步骤3.1：对预处理过后的图片进行收集，计算步态能量图G(x,y)，如图4所示。

步态能量图的计算公式为：

式中N为步态周期的帧数，B_t(x,y)为图像t时刻在像素点(x,y)的像素值。

根据相关文献以及实验结果显示，一个步态周期大约为40帧，所以取N＝40，即每40帧计算一次步态能量图。

步骤3.2：将步态能量图放入预先训练好的网络运行，通过softmax分类器对人物进行分类，确定人物身份信息。

步骤3.3：确定人物身份后，对人物进行锚框和标注。

上述标框策略为：使用预处理过后的图片，首先确定二值化图像中人物的中心点(x₁,y₁)，接着计算人物白像素点的宽度W和高度H。然后在原始图像上以人物中心点(x₁,y₁)为中心，宽度为W，高度为H进行画框，并将人物的相关信息标注在框旁边。

对画出框使用IOU阈值匹配来减少候选框的数量，提升锚框的准确性。

IOU的定义为：

式中，A,B代表两个候选框。IOU表示两个框的面积的交集和并集之比。在本发明中设置IOU的阈值为40。

步骤3.4：对人物框执行卡尔曼滤波算法进行屏幕跟踪。

卡尔曼滤波预测方程如下：

其中x_k和x_k-1分别表示k-1时刻和k时刻的估计值，A_k为状态转移矩阵，B_k为控制矩阵，u_k为控制向量，P_k-1和P_k分别为k-1和k时刻的协方差，为k时刻先验估计协方差，Q为预测模型带来的噪声。

卡尔曼滤波的状态更新方程如下：

卡尔曼滤波的预测结果会以框的形式标注出来，使用此方法可以有效改善因短时间遮挡而造成被跟随者丢失的问题。

步骤4：使用UWB技术获取被跟随者的定位信息。

在本发明中，被跟随者和轮椅都会安装UWB模块，两个模块都可以发送两者的定位信息，通过此信息可以获取被跟随者和轮椅的相对距离以及角度。

步骤5：将步骤3和步骤4的信息进行数据融合，对电机发出控制，实现跟随

步骤3的方位信息来自于：步骤3所标注的框需要保持在屏幕的正中央，标注框的中心与中心的距离即为需要修正的偏差，这部分偏差就是被跟随者的方位信息。

步骤4的方位信息来自于UWB模块提供的相对距离以及角度信息。

采用的数据融合方式如下所示：

式中，P为跟随方位，S₁为步骤3中摄像头提供的被跟随者方位，S₂为步骤4UWB技术提供的被跟随者方位，λ为图像中被跟随者识别的置信度。在摄像头置信度高的情况下，摄像头的权重就偏大。当摄像头置信度低的情况下，说明出现了部分遮挡或者有被随着丢失的情况，此时UWB模块发来的数据权重就更大一些。

表1不同算法的跟随效果

如表1所示，本发明在跟随方面有着较好的准确度，跟随偏差明显小于单独使用摄像头和单独使用UWB模块，轮椅跟踪的角度误差均在±4°以内，能够很好的满足老人以及一些残障人士的出行安全问题，在步态识别的准确度方面能够达到85％以上。

Claims

1.基于图像信息与电磁定位信息数据融合的轮椅跟随方法，其特征在于，它包括以下步骤：

步骤1：获取目标人体全身图像；

步骤2：对获取的人体全身图像进行预处理；

步骤3：采用Resnet50网络对被跟随者步态信息进行识别；

步骤4：使用UWB技术获取被跟随者的定位信息；

2.根据权利要求1所述的方法，其特征在于，在步骤2中，包括以下步骤：

步骤2-1：对获取的图像进行降噪处理；

步骤2-2：对降噪后的图像进行分割；

步骤2-3：对由步骤2-2获取的图像进行归一化处理；

步骤2-2-1)由下式获取差分图像

I_n(x,y)＝|f_n(x,y)-f_n-1(x,y)|

其中T为所设置的阈值，当图像对应灰度值差值的绝对值小于阈值时，将此坐标灰度值设置为0，当图像灰度值差值的绝对值大于阈值时，将此坐标灰度值设置为255；通过此方式就可以将动态的人体分割出来，以便下一步对图像进行处理。

3.根据权利要求1所述的方法，其特征在于，在步骤3中，所采用的Resnet50的网络结构为：

第一阶段，卷积层(1)→CBAM注意力机制模块(2)→最大池化层(3)；

第二阶段，第二阶段残差块第一个卷积层(4)→第二阶段残差块第二个卷积层(5)→第二阶段残差块第三个卷积层(6)→两个第二阶段残差块(7)；

第三阶段，第三阶段残差块第一个卷积层(8)→第三阶段残差块第二个卷积层(9)→第三阶段残差块第三个卷积层(10)→三个第三阶段残差块(11)；

第四阶段，第四阶段残差块第一个卷积层(12)→第四阶段残差块第二个卷积层(13)→第四阶段残差块第三个卷积层(14)→五个第四阶段残差块(15)；

第五阶段，第五阶段残差块第一个卷积层(16)→第五阶段残差块第二个卷积层(17)→第五阶段残差块第三个卷积层(18)→两个第五阶段残差块(19)；

CBAM注意力机制模块(20)→平均池化层(21)→Flatten层(22)→全连接层(23)→softmax函数(24)；

输入特征输入第一阶段的输入端，第一阶段的输出端连接至第二阶段的输入端，第二阶段的输出端连接至第三阶段的输入端，第三阶段的输出端连接至第四阶段的输入端，第四阶段的输出端连接至第五阶段的输入端，第五阶段的输出端连接至CBAM注意力机制模块(20)。

4.根据权利要求3所述的方法，其特征在于，该模型在工作时，采用以下步骤：

1)将预处理的过后的步态能量图放入网络中，使用卷积层(1)对图像信息进行初步提取，通过CBAM注意力机制模块(2)使网络更关注所识别对象；

3)将提取出的深层多维信息再次输入到注意力机制模块(20)中，接着通过池化层(21)和Flatten层(22)，将数据一维化，然后通过全连接层(23)，最后通过softmax函数(24)得到识别结果。

5.根据权利要求1所述的方法，其特征在于，在步骤3中，对被跟随者步态信息进行识别时，采用以下步骤：

步骤3.3：确定人物身份后，对人物进行锚框和标注；

IOU的定义为：

步骤3.4：对人物框执行卡尔曼滤波算法进行屏幕跟踪；

卡尔曼滤波预测方程如下：

卡尔曼滤波的状态更新方程如下：

6.根据权利要求1所述的方法，其特征在于，在步骤4中，在被跟踪者以及轮椅上均安装UWB模块，通过UWB模块发送电费定位信息获取被跟随者和轮椅的相对距离以及角度。

7.根据权利要求1所述的方法，其特征在于，在步骤5中，由步骤3获取的信息具体为：步骤3所标注的框需要保持在屏幕的正中央，标注框的中心与中心的距离即为需要修正的偏差，这部分偏差就是被跟随者的方位信息；

在进行数据融合时，采用以下公式：