CN113297990A

CN113297990A - 基于高斯掩模光流的人体足部运动目标检测方法

Info

Publication number: CN113297990A
Application number: CN202110593734.5A
Authority: CN
Inventors: 陈丹; 梁宇; 吴鹏飞; 孔忆飞
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-24
Anticipated expiration: 2041-05-28
Also published as: CN113297990B

Abstract

本发明公开了一种基于高斯掩模光流的人体足部运动目标检测方法，基于人体行走视频帧的显著图，进行直方图均衡化、OTSU阈值分割以及形态学闭运算，再通过提取足部高斯掩模图，采用光流算法获得人体足部运动目标区域。针对人体足部运动幅度很小无法准确定位的视频帧，将上一帧足部位置作为当前帧的足部位置。本发明解决了现有技术中存在的人体足部检测过程中由于背景信息、不感兴趣区域干扰导致足部区域提取失败和无法检测、定位运动幅度较小的足部的问题。

Description

基于高斯掩模光流的人体足部运动目标检测方法

技术领域

本发明属于机器人视觉检测技术领域，具体涉及一种基于高斯掩模光流的人体足部运动目标检测方法。

背景技术

随着机器人技术的不断发展，智能服务机器人越来越多地被应用在日常的生产和生活当中，人机交互已成为机器人学的新兴领域之一。以目标检测为核心技术的服务机器人代表了智能机器人的发展方向。

智能机器人可以通过搭载摄像头获取视频信息，对视频目标进行检测、识别和定位。小型机器人自身高度较低，搭载的摄像头在近距离无法采集到人体的上半身。在这种情况下，将人体足部作为目标进行检测比较合理。复杂场景下如何准确检测目标是目标检测领域的一大难题。传统帧差法、背景减除法和光流法处理整张图像信息，受背景信息和不感兴趣区域干扰较大，很难准确检测到目标。当检测人体足部这样特殊的目标时极易受非足部区域的影响，很容易误检出我们不感兴趣的区域。不仅如此，传统帧差法、背景减除法和光流法依赖于目标较明显的运动幅度，当目标运动微小时较难检测到目标运动区域，无法进一步的实现目标定位。因此，针对传统帧差法、背景减除法和光流法目标检测过程中受光照、不感兴趣物体晃动等背景干扰较大和无法检测目标的某一特定部分以及较难实现运动幅度很轻微目标的检测、定位问题，本发明研究一种基于高斯掩模光流的人体足部目标检测算法。该算法原理简单、易于实现，解决了足部检测过程中前景提取困难和足部运动幅度较小导致无法定位的问题，提高了足部前景提取F-measure值和足部位置平均检测准确率，且算法运行耗时比光流法少，结果表明本发明所提检测算法对人体行走过程中的足部目标检测具有一定的鲁棒性。

发明内容

本发明的目的是提供一种基于高斯掩模光流的人体足部运动目标检测方法，解决了现有技术中存在的人体足部检测过程中由于背景信息、不感兴趣区域干扰导致足部区域提取失败和无法检测、定位运动幅度较小的足部的问题。

本发明所采用的技术方案是，一种基于高斯掩模光流的人体足部运动目标检测方法，具体按照以下步骤实施：

步骤1、采集人体行走视频，将人体行走视频转换为视频序列；

步骤2、使用高斯滤波器对步骤1得到的视频序列去噪；

步骤3、将步骤2获得的视频序列进行不同层次的尺度变化得到图像金字塔，提取图像金字塔的亮度、颜色和方向特征，再对不同特征做归一化处理获取人体行走视频帧的显著图；

步骤4、将步骤3得到的人体行走视频帧的显著图采用直方图均衡化处理获得显著图经图像增强的效果图，对图像增强效果图进行OTSU阈值分割获得足部二值图像，将OTSU阈值分割结果采用形态学闭运算滤除较小的噪声点并连接足部区域边缘即可获取人体足部区域初始掩模图；

步骤5、对阈值分割和形态学处理后的显著图使用高斯掩模进行处理，将步骤4获得的人体足部区域初始掩模图进行二维高斯平滑，自动获取足部区域的高斯掩模图；

步骤6、选取人体行走视频的连续100帧图像，将步骤2获得的视频序列与步骤5的的足部区域高斯掩图做逻辑与运算获得只含人体足部的视频序列；

步骤7、人体足部视频序列光流估计；

步骤8、将步骤7获得的足部光流结果滤去噪声增强图像质量，实现视频帧中人体双脚的循环定位。

本发明的特点还在于，

步骤3中将步骤2获得的视频序列进行1/2、1/4和1/8不同层次的尺度变化。

步骤7具体按照以下步骤实施：

步骤7.1、在步骤6获得的只含人体足部的视频序列中任意取一帧，设在t时刻，该图像帧中某一个像素点的坐标为(x,y)，该像素点的灰度值为I(x,y,t)，则t+Δt时刻该像素点的坐标变为(x+Δx,y+Δy)，灰度值为I(x+Δx,y+Δy,t+Δt)，假设运动前后该像素点的亮度值即灰度值不变，即：

式中，x、y分别为该像素点的水平坐标和垂直坐标，t为时间；

将式(1)整理转化得：

I(x,y,t)＝I(x+Δx,y+Δy,t+Δt) (2)

步骤7.2、令u，v分别为该像素点沿水平方向和垂直方向的速度分量，则

将式(2)右边按泰勒公式展开得：

式(3)中，O(dx,dy,dt)为I(x+Δx,y+Δy,t+Δt)的高阶无穷小量，忽略高阶无穷小量，并消去I(x,y,t)，将式(3)化简得：

将u，v代入式(4)得：

步骤7.3、设I_x、I_y、I_t分别代表该像素点的灰度值沿x、y、t三个方向的偏导数，式(5)转化为：

I_xu+I_yv+I_t＝0 (6)

式(6)是光流场基本方程，矢量形式表示为：

式(7)是光流方程，其中

表示梯度方向，U＝(u,v)^T表示光流；

步骤7.4、结合式(8)所示的全局平滑和亮度约束求得u、v的近似解：

式(8)中，α为调和因子，min为使式(8)最小的标志，该像素点的光流矢量大小

u_x,y和v_x,y分别为该像素点沿水平和垂直方向的速度分量，W_x,y表示该像素点的光流值，所有像素点的光流值组成了步骤7得到的足部光流结果。

步骤7中调和因子α＝1。

本发明的有益效果是，一种基于高斯掩模光流的人体足部运动目标检测方法，原理简单、切实可行、易于实现。解决了传统帧差法、背景减除法和光流法目标检测算法受背景信息、不感兴趣区域干扰导致目标前景提取困难甚至目标检测失败和无法实现目标运动幅度轻微时的检测、定位问题，提高了足部前景提取F-measure值和足部位置平均检测准确率。

附图说明

图1是显著图及足部高斯掩模处理；其中，图1(a)是人体行走视频帧的显著图，图1(b)是显著图的图像增强效果图，图1(c)是双脚的高斯掩模图，图1(d)是左右脚高斯掩模图；

图2是足部高斯掩模与视频序列的逻辑与处理结果，其中，图2(a)是视频第1帧的RGB图与其足部高斯掩模图的逻辑与运算效果图，图2(b)是视频第100帧的RGB图与其足部高斯掩模图的逻辑与运算效果图；

图3是本发明所提检测算法结构图；

图4欧氏阈值图；

图5不同算法下足部位置平均检测准确率，其中，图5(a)是视频Runway平均检测准确率图，图5(b)是视频Garden平均检测准确率图，图5(c)是视频Illumination平均检测准确率图，图5(d)是视频Passageway平均检测准确率图；

图6是原始HS(Horn-Schunck)光流算法和本发明所提算法对四组不同视频的足部检测结果示意图，每组视频选取任意两帧，其中，图6(a)是视频Runway第37帧和第89帧的足部检测结果图，图6(b)是视频Garden第35帧和第85帧的足部检测结果图，图6(c)是视频Illumination第22帧和第74帧的足部检测结果图，图6(d)是视频Passageway第40帧和第92帧的足部检测结果图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于高斯掩模光流的人体足部运动目标检测方法，具体按照以下步骤实施：

步骤2、为了降低图像噪声影响，提高图像质量，使用高斯滤波器对步骤1得到的视频序列去噪；

步骤3、不同尺度的图像包含的图像信息是不同的，为了得到1/2、1/4和1/8不同层次的图像信息、提取目标不同尺度的特征，将步骤2获得的视频序列进行不同层次的尺度变化得到图像金字塔，提取图像金字塔的亮度、颜色和方向特征，再对不同特征做归一化处理获取如图1(a)所示人体行走视频帧的显著图；

步骤4、将步骤3得到的人体行走视频帧的显著图采用直方图均衡化(一种图像增强方法)处理获得如图1(b)所示的显著图经图像增强的效果图，对图像增强效果图进行OTSU阈值分割获得足部二值图像(像素值0和1组成的图像)，将OTSU阈值分割结果采用形态学闭运算滤除较小的噪声点并连接足部区域边缘即可获取人体足部区域初始掩模图；

形态学运算是图像处理领域的一种方法，通常包括腐蚀、膨胀、开运算以及闭运算，处理对象多为像素值0和1组成的二值图像。腐蚀和膨胀的作用是消除噪声点、分割出独立的图像元素以及在图像中连接相邻的元素。先腐蚀后膨胀的操作被称为开运算，主要功能是消除较小物体，在纤细处分离物体。而先膨胀后腐蚀被称为闭运算，常用来消除图像中的黑洞(或黑斑)，最大程度还原物体本来的像素信息。通过闭运算可以滤除步骤4中阈值分割结果的噪声点，同时连接足部区域边缘，获得人体足部区域初始掩模图。

步骤5、对阈值分割和形态学处理后的显著图使用高斯掩模进行处理，将步骤4获得的人体足部区域初始掩模图进行二维高斯平滑，自动获取足部区域的高斯掩模图；为了尽可能减小人体腿部区域干扰同时避免高斯掩模区域缺失足部边缘，可将掩模区域下移一定像素单位(本发明取60个像素)获得图1(c)，即未区分左右脚的高斯掩模图，将图1(c)以高斯掩模中心位置宽30个像素进行分离获得图1(d)所示的区分左右脚的高斯掩模结果，本发明所提算法使用图1c所示的未区分左右脚的高斯掩模图与原始人体行走视频序列做逻辑与运算。

步骤6、为获取只含人体足部的视频序列，选取人体行走视频的连续100帧图像，将步骤2获得的视频序列与步骤5的的足部区域高斯掩图做逻辑与运算获得只含人体足部的视频序列；逻辑与运算结果如图2所示，由图2可知该逻辑处理方法可以获得人体足部目标区域。

步骤7、人体足部视频序列光流估计；光流是指运动物体在图像上的像素运动的瞬时速度，采用图像序列中像素在时间域上的变化以及不同视频序列之间的相关性来找到不同视频序列之间存在的对应关系，从而计算视频序列之间物体运动信息的一种方法，其算法原理见公式1-8所示。利用光流算法对步骤6获得的只含人体足部的视频序列进行光流估计即可获得足部光流结果；

步骤7具体按照以下步骤实施：

将式(1)整理转化得：

I(x,y,t)＝I(x+Δx,y+Δy,t+Δt) (2)

将式(2)右边按泰勒公式展开得：

将u，v代入式(4)得：

I_xu+I_yv+I_t＝0 (6)

式(6)是光流场基本方程，矢量形式表示为：

式(7)是光流方程，其中

表示梯度方向，U＝(u,v)^T表示光流；HS光流算法计算光流有两个前提条件：第一，运动物体的灰度在很短时间间隔内保持不变，如式(2)。第二，给定领域内的速度向量场变化是缓慢的，

调和因子α＝1。

步骤8、将步骤7获得的足部光流结果滤去噪声增强图像质量，利用matlab工具箱的regionprops函数即可统计步骤7经去噪后的光流结果图(0和1组成的二值图像)中像素值为1的像素点坐标，通过分析对比这些像素点坐标来确定足部光流结果左上角坐标(水平坐标值和垂直坐标值均最小)和右下角坐标(水平坐标值和垂直坐标值均最大)的位置。当视频帧的足部运动幅度很小(即脚走的很慢)时，步骤7获得的足部光流结果中像素值为1的像素点很分散且数量很少，利用regionprops函数获得的左上角和右下角坐标不足以表征足部目标，此时无法准确定位足部目标。因相邻帧之间双脚的位置几乎不发生变化，所以针对此问题，本发明将上一帧足部位置(左上角和右下角坐标)作为当前帧的足部位置，实现视频帧中人体双脚的循环定位。

本发明所提检测算法简化流程图如图3所示。该算法对相邻两帧人体行走视频帧1和视频帧2进行1/2、1/4和1/8等不同尺度变化得到图像金字塔，提取图像金字塔的颜色、方向和亮度等特征产生特征图，特征图归一化即可得到图像显著图。在此基础上进行显著图阈值分割、形态学闭运算和高斯掩模处理获取足部区域1和足部区域2，最后将足部区域进行光流估计和循环定位处理获得检测结果。

采用本发明所提检测算法对四组不同情况下的行人步行视频进行了足部目标检测实验，四组视频场景描述见表1所示。

表1实际拍摄的四组行人行走视频场景描述

F-measure值是运动目标检测中衡量运动目标检测效果的重要指标，较高的F-measure是实现运动目标准确定位的前提，其计算公式如下式所示：

其中，Recall是召回率，表示检测为前景的像素中属于运动目标像素的百分比，Precision是准确率，表示检测为前景的像素中被正确检测的百分比，其计算公式如下式所示：

其中，TP是足部目标提取结果的前景像素对应于Groundtruth中前景像素的像素数量，FN是没有提取到的前景像素对应于Groundtruth中前景像素的像素数量，FP是被提取为前景像素中对应于Groundtruth中背景像素的像素数量。

本发明采用所提检测算法、光流法、帧差法、改进的混合高斯法、改进的vibe法以及三帧光流增强法共六种算法对不同视频的足部前景提取F-measure值进行分析。下面内容将光流法、帧差法、改进的混合高斯法、改进的vibe法和三帧光流增强法分别命名为算法1、算法2、算法3、算法4和算法5，足部前景提取F-measure值见表2所示。

表2不同方法人体足部前景提取F-measure值

表2中，对于视频Passageway，算法1的F-measure值为77.00％，高于算法3、算法4和算法5的值，算法2受运动幅度和噪声干扰较大，只能检测到足部目标的一小部分，而本发明算法能够完整检测到足部有效区域，因此在六种算法中本发明算法所获得的F-measure值最高，达到约77.94％。对于视频Runway，不感兴趣物体和背景环境干扰较小，六种方法的F-measure均有不同程度提高，本发明检测算法高达89.20％。对于视频Garden，地砖颜色和形状与足部相似，对比算法F-measure较低，而本发明检测算法仍然高达76.43％。对于视频Illumination，光照变化强烈，算法5采用三帧光流增强法提取了较多的足部前景像素，F-measure达65.57％，在对比算法中最高，本发明检测算法抑制了较多背景信息和不感兴趣区域从而减弱了光照变化的干扰，其F-measure高达75.15％。将不同方法对四组视频的F-measure取均值可获得本发明检测算法在四组视频下的平均F-measure为79.68％，高出5种对比算法9.86％～25.96％，结果表明本发明所提检测方法在光照变化和不感兴趣物体干扰的复杂背景下仍能提取到较完整的足部目标。

足部前景提取F-measure值是评估足部运动目标提取效果的重要指标，其数值的高低影响着足部目标定位的准确性，但它不能成为足部目标检测性能的决定性评估指标，如算法5使用三帧光流增强法提取出较多足部前景像素的同时也过多提取出了噪声和不感兴趣区域像素，这势必影响足部目标定位的准确性。因此在足部前景提取F-measure值的基础上，本发明又采用足部位置平均检测准确率进行足部运动目标检测性能评估。平均检测准确率定义为目标检测结果矩形框的中心位置与目标真实矩形框中心位置的欧氏距离小于某一阈值的帧数与视频总帧数的比值，欧式阈值示意如图4所示，本发明中欧氏阈值选30个像素。

图4中绿色框为左脚的真实矩形框，红色圆圈是以绿色矩形框中心为圆心，40个像素为半径的圆。由此可以看出，若检测矩形框的中心位置在红色圆内，则检测矩形框没有完全偏离人体足部，检测矩形框的中心位置越接近真实矩形框的中心位置即欧氏阈值越小，则检测矩形框和真实矩形框位置形状越接近，检测效果越好。

图5是不同算法下的足部位置平均检测准确率图。其中，对于图5(a)，欧氏阈值取30时，算法3、算法4，算法5，算法1，算法2和本发明检测算法准确率分别为0.28，0.09，0.27，0.40，0.12和0.68。对于图5(b)，地砖颜色和纹理导致背景复杂，对比算法准确率较低，算法3、算法4，算法5，算法1，算法2和本发明检测算法准确率分别为0.18，0.18，0.05，0.19，0.10和0.90。对于图5(c)，不感兴趣物体和光照变化强烈导致背景环境复杂，算法1准确率有所下降，算法2对光照适应性较强，虽然足部前景提取F-measure值较低但因提取到的是足部的一小块区域，因此准确率有一定提高，算法5使用三帧光流增强法提高运动目标提取效果，但背景复杂时会过多提取出噪声和不感兴趣区域，因此背景复杂时目标定位效果较差，算法3、算法4，算法5，算法1，算法2和本发明检测算法准确率分别为0.37，0.42，0.03，0.35，0.38和0.91。对于图5(d)，算法3、算法4，算法5，算法1，算法2和本发明检测算法准确率分别为0.51，0.72，0.30，0.75，0.41和0.94。将算法3、算法4，算法5，算法1，算法2和本发明检测算法对四组视频的准确率取均值后分别为0.34，0.35，0.16，0.42，0.25和0.86，结果表明本发明所提检测方法在光照变化和不感兴趣物体干扰的复杂背景下足部位置平均检测准确率较高，仍可以准确实现足部目标定位。

由表2和图5可知，本发明检测算法的足部目标提取F-measure值和足部位置平均检测准确率均优于5种对比算法，为进一步验证算法鲁棒性，我们还计算了算法在型号为Intel Core i3-7100 CPU和Intel Graphics 630电脑上检测人体行走视频1帧所需的时间，其结果见表3所示。

表3不同方法检测人体行走视频单帧所用时间(s)

检测方法	算法1	算法2	算法3	算法4	算法5	本发明方法
							耗时	0.45	0.04	4.60	3.15	0.56	0.37

表3中，算法3和算法4的算法复杂且需要视频先验信息，耗时最久。算法2原理简单，运行时间最短。算法1、算法5和本发明方法是以光流为核心的检测算法，算法5因使用三帧光流替代两帧光流导致算法多耗时0.11秒，本发明方法虽在光流前加入了人体足部高斯掩模，但因光流时只估计人体足部，并未拖慢运行速度而且提高了0.08秒。结果表明本发明所提检测方法运行时间优于所提5种对比算法，能够实现人体行走视频足部的鲁棒性检测。

图6是基于表1中四组视频的两种算法检测效果图，两种算法分别是对比算法中检测准确率较高的算法1和本发明所提检测算法。图6(a)、图6(b)、图6(c)和图6(d)的第1列为采集的原始视频序列，每组视频选取任意两帧，即动态帧和小尺度帧。图6(a)、图6(b)、图6(c)和图6(d)的第2列和第4列分别为对应视频序列的算法1足部光流结果和足部位置检测结果。由于算法1处理整张图像受背景信息和不感兴趣区域干扰较大，因此足部光流估计结果不理想，会出现大面积误检区域，如图6(a)第89帧算法1光流结果所示。同时算法1依赖于目标明显的运动幅度，当足部运动幅度很小导致足部目标提取不完整而无法定位，其检测结果只有一只脚的位置，如图6(a)、图6(b)、图6(c)和图6(d)中第4列视频帧检测结果所示。针对该问题本发明引入双脚检测处理，将上一帧足部位置作为当前帧的足部位置，实现了人体双脚的循环检测，如图6(a)、图6(b)、图6(c)和图6(d)中第5列视频帧检测结果所示。综上分析，本发明所提算法在室外花园地砖干扰、强烈光照干扰和与足部颜色类似的花纹地砖干扰的场景下均能准确检测到足部位置，验证了该算法对人体足部检测的鲁棒性。