CN110321937A - 一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法 - Google Patents
一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法 Download PDFInfo
- Publication number
- CN110321937A CN110321937A CN201910526422.5A CN201910526422A CN110321937A CN 110321937 A CN110321937 A CN 110321937A CN 201910526422 A CN201910526422 A CN 201910526422A CN 110321937 A CN110321937 A CN 110321937A
- Authority
- CN
- China
- Prior art keywords
- human body
- kalman filtering
- value
- vector
- moving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 241000282414 Homo sapiens Species 0.000 title claims abstract description 222
- 238000001914 filtration Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 135
- 239000011159 matrix material Substances 0.000 claims abstract description 65
- 230000008859 change Effects 0.000 claims abstract description 30
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 18
- 238000001514 detection method Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 10
- 210000000746 body region Anatomy 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种Faster‑RCNN结合卡尔曼滤波的运动人体跟踪方法,首先对Faster‑RCNN算法进行简化,留下卷积神经网络和RPN网络,输入图像经过以上两个网络输出运动人体候选位置;然后对经典卡尔曼滤波算法进行改进,将原算法中定义为常值矩阵的噪声协方差矩阵改为时变矩阵,将原状态向量由四维扩展为八维,增加状态向量中运动人体位置框的宽度、高度和宽高变化率信息;最后将得到的运动人体候选位置作为卡尔曼滤波算法观测值,结合卡尔曼滤波算法预测值,得到多个运动人体位置的估计值,通过最小二乘拟合,去除离群点,去剩余位置求取平均值得到运动人体位置最优估计。该方法实现了动态背景下运动人体准确跟踪的效果。
Description
技术领域
本发明涉及一种运动人体跟踪方法,特别是一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法,属于图像处理技术领域。
背景技术
随着社会经济类型的逐步转变,人类的双手渐渐从机械劳动中解放,大量机械劳动由机器人代为进行。移动机器人的发展经历了从最初的遥控行驶搬运各种货物,到现在的自动跟踪可为特定人员提供跟踪服务,目标人体的检测跟踪技术是其主要的技术上升点。近年来,数字图像处理技术日渐成熟,基于视觉图像处理的目标人体跟踪技术成为众多的学者和企业的研究热点。
运动人体跟踪是指在复杂的环境中从连续的视频图像里精确分辨出人体所在位置并进行跟踪的过程。在商场监控、交通管制等领域中,摄像头固定不动,即跟踪背景不发生变化时,称为静态背景下运动人体跟踪与身份识别。该方法多用于功能简单、环境单一的跟踪识别领域。近年来社会发展对人体跟踪与身份识别技术提出新的要求,当摄像头搭载在机器人上进行移动时,同样也需要对运动的人体进行跟踪与识别,此时,摄像头拍取的图像背景是不断发生变化的,无法提取固定的背景模型,被称为移动机器人动态人体跟踪与识别,是目前运动人体跟踪与识别方向的主要攻克难点。
动态背景环境下,对运动人体进行跟踪的方法可以划分为两类:第一类是经典的动态背景下运动人体跟踪方法,在初始目标的基础上,基于运动目标的颜色、轮廓、运动矢量进行跟踪。第二类是基于卷积神经网络的运动人体跟踪方法,通过大量人体数据集对网络进行训练,使其能够准确区分出人与背景,在动态背景视频中帧帧检测出人体目标,并进行人体跟踪。经典的动态背景下运动人体跟踪方法在进行跟踪时过度依赖跟踪目标的颜色、轮廓、运动矢量等特征,忽略了背景在跟踪过程中的意义,导致运动人体跟踪过度依赖目标的单一或几种显示特征。与经典动态背景下运动人体跟踪方法相比,基于卷积神经网络的深度学习的方法不依赖某种单一显示特征,对输入图像的特征利用率更高,所以跟踪的准确性和鲁棒性会大大提升。基于Faster-RCNN的方法是用于运动人体跟踪最主流的方法,但此方法在进行人体分类时采用的是全连接层进行分类,网络参数过百万,严重影响了运动人体跟踪的实时性。且该方法不适用于运动人体出现遮挡的情况,运动人体出现遮挡时,跟踪即失败。
考虑到动态背景下运动人体跟踪,具有准确性高、实时性高、鲁棒性高的要求,本发明提出了一种Faster-RCNN与卡尔曼滤波结合的运动人体跟踪方法,该算法首先对原有的Faster-RCNN算法进行简化,只留下原算法的卷积神经网络和RPN网络,输入图像经过以上两个网络输出多个(约300个)运动人体候选位置。然后对经典的卡尔曼滤波算法进行改进,为了变达运动人体位置的实时变化及位置关系,将原算法中定义为常值矩阵的噪声协方差矩阵改变为时变矩阵,同时,将原状态向量由四维扩展为八维,增加了状态向量中运动人体位置框的宽度、高度和宽高变化率信息,以此来适应运动人体尺度上的变化。最后将简化Faster-RCNN算法得到的运动人体候选位置作为卡尔曼滤波算法的观测值,结合卡尔曼滤波算法的预测值,得到多个运动人体位置的估计值,通过对多个估计值进行最小二乘拟合,去除离群点,去剩余位置求取平均值得到运动人体位置的最优估计。该方法实现了动态背景下运动人体准确跟踪的效果。
发明内容
针对上述现有技术,本发明要解决的技术问题是提供一种跟踪效果准确度高、实时性高、鲁棒性高的Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法。
为解决上述技术问题,本发明的一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法,包括如下步骤:
步骤1:简化Faster-RCNN网络,获得运动人体获选区域
Faster-RCNN网络不包括全连接层部分,
1.1)获得卷积特征图
输入图像在进入简化后的Faster-RCNN网络的卷积神经网络前,进行大小调整,将所有的输入图像调整为800×600,之后将图片送入训练好的卷积神经网络VGG16,得到关于输入图像的完整的卷积特征图;
1.2)获得运动人体候选区域
首先将卷积神经网络得到的特征图送入RPN网络进行3*3的卷积,使特征图中的每个点融合周围的空间信息;然后简化后的Faster-RCNN网络分为了两条主线,一条主线经过1*1的卷积和损失函数,输出运动人体候选区域是人和非人的概率,另一条主线经过1*1的卷积,输出运动人体候选区域的中心坐标、宽度和高度的缩放比例(dx,dy,dw,dh);最后,结合两条主线,得到运动人体候选区域,该区域向量包含该区域是人体区域或者非人体区域的概率,以及该区域相对于真实特征区域的缩放参数(dx,dy,dw,dh)。
步骤2:改进卡尔曼滤波算法
对每一帧图像中人体的位置的观测向量和状态向量的噪声协方差矩阵进行实时计算,即将协方差矩阵均取作时变矩阵:
协方差矩阵的运算公式为:
其中,X、Y为求取相关性的两个位置向量或观测向量;n为每个向量包含的元素个数;i为向量中的元素序号;和分别为X向量和Y向量的均值,协方差矩阵的形式为:
表示三个位置向量或观测向量X、Y、Z的协方差矩阵;
观测值向量的噪声协方差矩阵由步骤1得到的运动人体候选区域的位置信息进行计算,状态向量的噪声协方差矩阵由卡尔曼滤波得到的状态向量进行计算;
状态向量重新定义为xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk],其中,其中,xk、yk分别为k时刻人体检测框的横向坐标值与纵向坐标值;vxk、vyk分别为人体检测框在k时刻的横向运动速度和纵向运动速度;wk为k时刻人体检测框的宽度;hk表示k时刻x状态下的人体检测框的高度;dwk、dhk为人体检测框的宽度变化率、高度变化率;
计算本帧运动人体位置的最优估计值包括:
k时刻系统协方差矩阵的方程:
Pk=((Pk -)-1+HTR1 -1H)-1
其中,H矩阵为测量矩阵,R1为观测值的噪声矩阵,是由k-1时刻的协方差推导出的k时刻协方差的预测值。
k时刻增益矩阵方程:
Kk=pkHTR-1
k时刻状态向量方程:
其中,是k时刻状态向量的最优估计值;是由k-1时刻的状态向量最优值推导出的k时刻状态向量预测值;Zk是k时刻观测向量;
k+1时刻的状态向量方程:
其中,Φ是状态转移矩阵;
k+1时刻协方差预测值方程:
其中,Q1是状态向量的噪声矩阵;
卡尔曼滤波算法的离散运动模型和观测模型:
状态方程:
X(k+1)=ΦX(k)+Q
观测方程:
Z(k)=HX(k)+R
其中,X(k)为k时刻状态向量,Z(k)为k时刻的观测向量;
步骤3:简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合
将得到的运动人体候选区域的位置信息xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk]作为卡尔曼滤波算法的观测值进行输入,预测值由上一帧的最优估计值推算得到;将观测值和预测值送入步骤2改进后的卡尔曼滤波算法得到关于人体位置的状态向量,即xk i=[xk,yk,vxk,vyk,wk,hk,dwk,dhk](0≤i≤n),n表示运动人体候选区域的个数,再将状态向量分别带入观测方程,得到人体位置,对多个位置采用最小二乘法,去除离群位置,对剩余的位置求取平均值作为人体位置的最优估计。
当运动人体跟踪过程中的人体出现局部遮挡或者全部遮挡的情况时,简化的Faster-RCNN网络不再给出运动人体候选区域的位置信息,此时卡尔曼滤波算法的观测值为0向量,对运动人体的跟踪取决于卡尔曼滤波算法上一帧的最优值。
本发明有益效果:移动背景下的运动人体跟踪在监控、导航、服务等多个方面都有较多的应用。但是,由于移动背景难以形成固定的模板,导致运动人体跟踪较为艰难。Faster-RCNN与卡尔曼滤波结合的运动人体跟踪方法相比较于传统的运动人体跟踪方法(Camshift算法、粒子滤波算法等),不单单依赖目标的颜色、轮廓等单一特征,通过训练神经网络的方式,使算法区分出人体与非人体。从而达到跟踪的目的,跟踪准确性较高。由于进行人体跟踪时,算法只需要区分人体和非人体两个类别,所以算法去掉了原Faster-RCNN算法的全连接层的分类层,采用卡尔曼滤波算法对运动人体位置进行估计,大大提升了算法的实时性。此外,算法采用卡尔曼滤波算法估计运动人体位置,当简化后的Faster-RCNN出现局部丢帧(无运动人体侯选框输出)情况时,卡尔曼滤波算法也可以通过本帧运动人体位置的预测值对本帧运动人体位置进行预测,使算法的鲁棒性更强。
附图说明
图1是Faster-RCNN网络简化图。
图2是Faster-RCNN与卡尔曼滤波结合的运动人体跟踪方法流程图。
具体实施方式
下面结合附图对本发明做进一步描述:
随着社会经济类型的逐步转变,人类的双手渐渐从机械劳动中解放,大量机械劳动由机器人代为进行。移动机器人的发展经历了从最初的遥控行驶搬运各种货物,到现在的自动跟踪可为特定人员提供跟踪服务,目标人体的检测跟踪技术是其主要的技术上升点。近年来,数字图像处理技术日渐成熟,基于视觉图像处理的目标人体跟踪技术成为众多的学者和企业的研究热点。运动人体跟踪是指在复杂的环境中从连续的视频图像里精确分辨出人体所在位置并进行跟踪的过程。在商场监控、交通管制等领域中,摄像头固定不动,即跟踪背景不发生变化时,称为静态背景下运动人体跟踪与身份识别。该方法多用于功能简单、环境单一的跟踪识别领域。近年来社会发展对人体跟踪与身份识别技术提出新的要求,当摄像头搭载在机器人上进行移动时,同样也需要对运动的人体进行跟踪与识别,此时,摄像头拍取的图像背景是不断发生变化的,无法提取固定的背景模型,被称为移动机器人动态人体跟踪与识别,是目前运动人体跟踪与识别方向的主要攻克难点。
运动人体跟踪是指在复杂的环境中从连续的视频图像里精确分辨出人体所在位置并进行跟踪的过程。在商场监控、交通管制等领域中,摄像头固定不动,即跟踪背景不发生变化时,称为静态背景下运动人体跟踪与身份识别。该方法多用于功能简单、环境单一的跟踪识别领域。近年来社会发展对人体跟踪与身份识别技术提出新的要求,当摄像头搭载在机器人上进行移动时,同样也需要对运动的人体进行跟踪与识别,此时,摄像头拍取的图像背景是不断发生变化的,无法提取固定的背景模型,被称为移动机器人动态人体跟踪与识别,是目前运动人体跟踪与识别方向的主要攻克难点。现有的运动人体跟踪方法,多是针对运动人体的单一特征,且不能实现运动人体出现遮挡时人体的跟踪情况。本发明针对移动机器人动态人体跟踪情况,提出了一种Faster-RCNN与卡尔曼滤波结合的运动人体跟踪方法,实现了动态背景下运动人体的跟踪。
发明属于图像处理技术领域,具体涉及的是一种Faster-RCNN与卡尔曼滤波结合的运动人体跟踪方法。(1)Faster-RCNN网络的简化;(2)卡尔曼滤波算法的改进;(3)简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合;该算法首先对原有的Faster-RCNN算法进行简化,只留下原算法的卷积神经网络和RPN网络,输入图像经过以上两个网络输出多个(约300个)运动人体候选位置。然后对经典的卡尔曼滤波算法进行改进,为了变达运动人体位置的实时变化及位置关系,将原算法中定义为常值矩阵的噪声协方差矩阵改变为时变矩阵,同时,将原状态向量由四维扩展为八维,增加了状态向量中运动人体位置框的宽度、高度和宽高变化率信息,以此来适应运动人体尺度上的变化。最后将简化Faster-RCNN算法得到的运动人体候选位置作为卡尔曼滤波算法的观测值,结合卡尔曼滤波算法的预测值,得到多个运动人体位置的估计值,通过对多个估计值进行最小二乘拟合,去除离群点,去剩余位置求取平均值得到运动人体位置的最优估计。该方法实现了动态背景下运动人体准确跟踪的效果。
本发明的步骤如下:
步骤1、Faster-RCNN网络的简化。去掉原Faster-RCNN的全连接层,只保留卷积神经网络和RPN网络,经RPN网络得到关于运动人体候选位置的坐标及是否为人体的几率值。
步骤2、卡尔曼滤波算法的改进。将原算法中状态向量的噪声协方差矩阵和观测向量的噪声协方差矩阵改成时变矩阵,计算采用协方差矩阵计算公式;将原来四维状态向量扩展为八维向量,即由xk=[xk,yk,vxk,vyk]变为xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk]。
步骤3、简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合。由简化的Faster-RCNN网络将得到约300个运动人体候选位置,将这些位置向量作为卡尔曼滤波算法的观测值输入,结合由卡尔曼滤波算法上一帧最优值得到的本帧运动人体位置的估计值,得到本帧运动人体位置的最优估计值,对约300个人体位置最优估计值进行最小二乘法拟合,去除离群位置,对剩余的人体位置求取平均值最为最后的人体位置。
实施例:
(1)Faster-RCNN网络的简化
原Faster-RCNN网络大体包含卷积神经该网络、RPN网络和全连接层三个部分。由于全连接层在进行特征分类的时候,含有上百万的参数,运行速度较慢,不符合动态背景下运动人体跟踪实时性的要求,因此在简化Faster-RCNN网络的时候需要去掉全连接层部分。
1.1)卷积特征图的获得
输入图像在进入卷积神经网络前,为了确保输出向量的一致性,需要进行大小调整(resize),将所有的输入图像调整为800×600大小。之后将图片送入训练好的卷积神经网络(VGG16),得到关于输入图像的完整的卷积特征图。
1.2)运动人体候选区域的获得
该网络首先将卷积神经网络得到的特征图送入RPN网络进行3*3的卷积,这样会使特征图中的每个点融合周围的空间信息,使得特征的鲁棒性更高。然后该网络分为了两条主线,一条主线经过1*1的卷积和损失函数,输出运动人体候选区域是人和非人的概率,另一条主线经过1*1的卷积,输出运动人体候选区域的中心坐标、宽度和高度的缩放比例(dx,dy,dw,dh)。最后,结合两条主线,得到运动人体候选区域,该区域向量包含该区域是人体区域或者非人体区域的概率,以及该区域相对于真实特征区域的缩放参数。
(2)卡尔曼滤波算法的改进
在传统卡尔曼滤波算法中,观测向量和状态向量的噪声协方差矩阵是为了描述各观测值向量之间和各状态值向量之间的相关性,它们通常取为常值矩阵,但是在运动人体跟踪过程中,常值协方差矩阵不能实时反映运动人体位置变化。为了实时反映运动人体位置变化,本文对每一帧图像中人体的位置的观测向量和状态向量的噪声协方差矩阵进行实时计算,即将其均取作时变矩阵。
协方差矩阵的运算公式为:
其中,X、Y为求取相关性的两个位置向量或观测向量;n为每个向量包含的元素个数;i为向量中的元素序号;和分别为X向量和Y向量的均值。协方差矩阵的形式为:
上述公式表示三个位置向量或观测向量X、Y、Z的协方差矩阵。
在本文算法中,观测值向量的噪声协方差矩阵由Faster-RCNN算法得到的300个运动人体候选区域的位置信息进行计算。状态向量的噪声协方差矩阵由卡尔曼滤波得到的多个状态向量进行计算。
此外,在传统卡尔曼滤波算法中,k时刻的状态向量记作xk=[xk,yk,vxk,vyk],为了适应动态人体跟踪中人体可能出现的尺度变化的情况,本文将状态向量重新定义为xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk],其中,wk为k时刻人体检测框的宽度;hk表示k时刻x状态下的人体检测框的高度;dwk、dhk为人体检测框的宽度变化率、高度变化率。
完成了上述改进后,按照下述递推公式进行运动人体位置计算:
(1)k时刻系统协方差矩阵的方程:
Pk=((Pk -)-1+HTR1 -1H)-1
其中,H矩阵为测量矩阵,R1为观测值的噪声矩阵,是由k-1时刻的协方差推导出的k时刻协方差的预测值。
(2)k时刻增益矩阵方程:
Kk=pkHTR-1
(3)k时刻状态向量方程:
其中,是k时刻状态向量的最优估计值;是由k-1时刻的状态向量最优值推导出的k时刻状态向量预测值;Zk是k时刻观测向量;
(4)k+1时刻的状态向量方程:
其中,Φ是状态转移矩阵;
(5)k+1时刻协方差预测值方程:
其中,Q1是状态向量的噪声矩阵。
(6)卡尔曼滤波算法的离散运动模型和观测模型:
状态方程:
X(k+1)=ΦX(k)+Q
观测方程:
Z(k)=HX(k)+R
其中,X(k)为k时刻状态向量,Z(k)为k时刻的观测向量。
(3)简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合
简化后的Faster-RCNN算法去掉了之前的分类层,并采用非极大值抑制算法得到约300个运动人体候选区域,每个区域都包含自己所在位置的坐标、位置坐标的变化率、区域的宽度和高度、区域宽度和高度的变化率以及区域是人与非人的概率。将得到的运动人体候选区域的位置信息作为卡尔曼滤波算法的观测值进行输入,此时卡尔曼滤波算法的观测值不再是一个简单的位置,而是一簇表示运动人体位置的向量,而预测值由上一帧的最优估计值推算得到。将观测值和预测值送入卡尔曼滤波算法得到关于人体位置的多个状态向量,即xk i=[xk,yk,vxk,vyk,wk,hk,dwk,dhk](0≤i≤n),n表示运动人体候选区域的个数,再将多个状态向量分别带入观测方程,得到多个人体位置,由于运动人体候选区域在真实人体区域存在较多重叠,即运动人体候选区域集中在同一区域。所以本文对多个位置采用最小二乘法,去除离群位置,对剩余的位置求取平均值作为人体位置的最优估计。
当运动人体跟踪过程中的人体出现局部遮挡或者全部遮挡的情况时,简化的Faster-RCNN网络不再给出运动人体候选区域的位置信息,此时卡尔曼滤波算法的观测值为0向量,对运动人体的跟踪取决于卡尔曼滤波算法上一帧的最优值,即本帧的估计值,通过估计值对运动人体位置进行实时计算,达到跟踪的目的。
本发明具体实施方式还包括:
本发明实施方式包括以下步骤:
(1)Faster-RCNN网络的简化
原Faster-RCNN网络大体包含卷积神经该网络、RPN网络和全连接层三个部分。由于全连接层在进行特征分类的时候,含有上百万的参数,运行速度较慢,不符合动态背景下运动人体跟踪实时性的要求,因此在简化Faster-RCNN网络的时候需要去掉全连接层部分。
1.1)卷积特征图的获得
输入图像在进入卷积神经网络前,为了确保输出向量的一致性,需要进行大小调整(resize),将所有的输入图像调整为800×600大小。之后将图片送入训练好的卷积神经网络(VGG16),得到关于输入图像的完整的卷积特征图。
1.2)运动人体候选区域的获得
该网络首先将卷积神经网络得到的特征图送入RPN网络进行3*3的卷积,这样会使特征图中的每个点融合周围的空间信息,使得特征的鲁棒性更高。然后该网络分为了两条主线,一条主线经过1*1的卷积和损失函数,输出运动人体候选区域是人和非人的概率,另一条主线经过1*1的卷积,输出运动人体候选区域的中心坐标、宽度和高度的缩放比例,即(dx,dy,dw,dh)。最后,结合两条主线,得到运动人体候选区域,该区域向量包含该区域是人体区域或者非人体区域的概率,以及该区域相对于真实特征区域的缩放参数。
(2)卡尔曼滤波算法的改进
在传统卡尔曼滤波算法中,观测向量和状态向量的噪声协方差矩阵是为了描述各观测值向量之间和各状态值向量之间的相关性,它们通常取为常值矩阵,但是在运动人体跟踪过程中,常值协方差矩阵不能实时反映运动人体位置变化。为了实时反映运动人体位置变化,本文对每一帧图像中人体的位置的观测向量和状态向量的噪声协方差矩阵进行实时计算,即将其均取作时变矩阵。
协方差矩阵的运算公式为:
其中,X、Y为求取相关性的两个位置向量或观测向量;n为每个向量包含的元素个数;i为向量中的元素序号;和分别为X向量和Y向量的均值。协方差矩阵的形式为:
上述公式表示三个位置向量或观测向量X、Y、Z的协方差矩阵。
在本文算法中,观测值向量的噪声协方差矩阵由Faster-RCNN算法得到的运动人体候选区域的位置信息进行计算。状态向量的噪声协方差矩阵由卡尔曼滤波得到的状态向量进行计算。
此外,在传统卡尔曼滤波算法中,k时刻的状态向量记作xk=[xk,yk,vxk,vyk],为了适应动态人体跟踪中人体可能出现的尺度变化的情况,本文将状态向量重新定义为xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk],其中,xk、yk分别为k时刻人体检测框的横向坐标值与纵向坐标值;vxk、vyk分别为人体检测框在k时刻的横向运动速度和纵向运动速度;wk为k时刻人体检测框的宽度;hk表示k时刻x状态下的人体检测框的高度;dwk、dhk为人体检测框的宽度变化率、高度变化率。
完成了上述改进后,将各改进变量带入以下递推方程,得到本帧运动人体位置的最优估计值,即
(1)k时刻系统协方差矩阵的方程:
Pk=((Pk -)-1+HTR1 -1H)-1
其中,H矩阵为测量矩阵,R1为观测值的噪声矩阵,是由k-1时刻的协方差推导出的k时刻协方差的预测值。
(2)k时刻增益矩阵方程:
Kk=pkHTR-1
(3)k时刻状态向量方程:
其中,是k时刻状态向量的最优估计值;是由k-1时刻的状态向量最优值推导出的k时刻状态向量预测值;Zk是k时刻观测向量;
(4)k+1时刻的状态向量方程:
其中,Φ是状态转移矩阵;
(5)k+1时刻协方差预测值方程:
其中,Q1是状态向量的噪声矩阵。
(6)卡尔曼滤波算法的离散运动模型和观测模型:
状态方程:
X(k+1)=ΦX(k)+Q
观测方程:
Z(k)=HX(k)+R
其中,X(k)为k时刻状态向量,Z(k)为k时刻的观测向量。
(3)简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合
简化后的Faster-RCNN算法去掉了之前的分类层,并采用非极大值抑制算法得到运动人体候选区域,每个区域都包含自己所在位置的坐标、位置坐标的变化率、区域的宽度和高度、区域宽度和高度的变化率以及区域是人与非人的概率。将得到的运动人体候选区域的位置信息xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk]作为卡尔曼滤波算法的观测值进行输入,此时卡尔曼滤波算法的观测值不再是一个简单的位置,而是一簇表示运动人体位置的向量,而预测值由上一帧的最优估计值推算得到。将观测值和预测值送入卡尔曼滤波算法得到关于人体位置的状态向量,即xk i=[xk,yk,vxk,vyk,wk,hk,dwk,dhk](0≤i≤n),n表示运动人体候选区域的个数,再将状态向量分别带入观测方程,得到人体位置,由于运动人体候选区域在真实人体区域存在较多重叠,即运动人体候选区域集中在同一区域。所以本文对多个位置采用最小二乘法,去除离群位置,对剩余的位置求取平均值作为人体位置的最优估计。
当运动人体跟踪过程中的人体出现局部遮挡或者全部遮挡的情况时,简化的Faster-RCNN网络不再给出运动人体候选区域的位置信息,此时卡尔曼滤波算法的观测值为0向量,对运动人体的跟踪取决于卡尔曼滤波算法上一帧的最优值,即上一帧最优值对本帧的估计值,通过估计值对运动人体位置进行实时计算,达到跟踪的目的。
Claims (1)
1.一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法,其特征在于,包括如下步骤:
步骤1:简化Faster-RCNN网络,获得运动人体获选区域
所述Faster-RCNN网络不包括全连接层部分,
1.1)获得卷积特征图
输入图像在进入简化后的Faster-RCNN网络的卷积神经网络前,进行大小调整,将所有的输入图像调整为800×600,之后将图片送入训练好的卷积神经网络VGG16,得到关于输入图像的完整的卷积特征图;
1.2)获得运动人体候选区域
首先将卷积神经网络得到的特征图送入RPN网络进行3*3的卷积,使特征图中的每个点融合周围的空间信息;然后简化后的Faster-RCNN网络分为了两条主线,一条主线经过1*1的卷积和损失函数,输出运动人体候选区域是人和非人的概率,另一条主线经过1*1的卷积,输出运动人体候选区域的中心坐标、宽度和高度的缩放比例(dx,dy,dw,dh);最后,结合两条主线,得到运动人体候选区域,该区域向量包含该区域是人体区域或者非人体区域的概率,以及该区域相对于真实特征区域的缩放参数(dx,dy,dw,dh)。
步骤2:改进卡尔曼滤波算法
对每一帧图像中人体的位置的观测向量和状态向量的噪声协方差矩阵进行实时计算,即将协方差矩阵均取作时变矩阵:
协方差矩阵的运算公式为:
其中,X、Y为求取相关性的两个位置向量或观测向量;n为每个向量包含的元素个数;i为向量中的元素序号;和分别为X向量和Y向量的均值,协方差矩阵的形式为:
表示三个位置向量或观测向量X、Y、Z的协方差矩阵;
观测值向量的噪声协方差矩阵由步骤1得到的运动人体候选区域的位置信息进行计算,状态向量的噪声协方差矩阵由卡尔曼滤波得到的状态向量进行计算;
状态向量重新定义为xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk],其中,其中,xk、yk分别为k时刻人体检测框的横向坐标值与纵向坐标值;vxk、vyk分别为人体检测框在k时刻的横向运动速度和纵向运动速度;wk为k时刻人体检测框的宽度;hk表示k时刻x状态下的人体检测框的高度;dwk、dhk为人体检测框的宽度变化率、高度变化率;
计算本帧运动人体位置的最优估计值包括:
k时刻系统协方差矩阵的方程:
Pk=((Pk -)-1+HTR1 -1H)-1
其中,H矩阵为测量矩阵,R1为观测值的噪声矩阵,Pk -是由k-1时刻的协方差推导出的k时刻协方差的预测值。
k时刻增益矩阵方程:
Kk=pkHTR-1
k时刻状态向量方程:
其中,是k时刻状态向量的最优估计值;是由k-1时刻的状态向量最优值推导出的k时刻状态向量预测值;Zk是k时刻观测向量;
k+1时刻的状态向量方程:
其中,Φ是状态转移矩阵;
k+1时刻协方差预测值方程:
其中,Q1是状态向量的噪声矩阵;
卡尔曼滤波算法的离散运动模型和观测模型:
状态方程:
X(k+1)=ΦX(k)+Q
观测方程:
Z(k)=HX(k)+R
其中,X(k)为k时刻状态向量,Z(k)为k时刻的观测向量;
步骤3:简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合
将得到的运动人体候选区域的位置信息xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk]作为卡尔曼滤波算法的观测值进行输入,预测值由上一帧的最优估计值推算得到;将观测值和预测值送入步骤2改进后的卡尔曼滤波算法得到关于人体位置的状态向量,即xki=[xk,yk,vxk,vyk,wk,hk,dwk,dhk](0≤i≤n),n表示运动人体候选区域的个数,再将状态向量分别带入观测方程,得到人体位置,对多个位置采用最小二乘法,去除离群位置,对剩余的位置求取平均值作为人体位置的最优估计。
当运动人体跟踪过程中的人体出现局部遮挡或者全部遮挡的情况时,简化的Faster-RCNN网络不再给出运动人体候选区域的位置信息,此时卡尔曼滤波算法的观测值为0向量,对运动人体的跟踪取决于卡尔曼滤波算法上一帧的最优值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910526422.5A CN110321937B (zh) | 2019-06-18 | 2019-06-18 | 一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910526422.5A CN110321937B (zh) | 2019-06-18 | 2019-06-18 | 一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110321937A true CN110321937A (zh) | 2019-10-11 |
CN110321937B CN110321937B (zh) | 2022-05-17 |
Family
ID=68119755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910526422.5A Active CN110321937B (zh) | 2019-06-18 | 2019-06-18 | 一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110321937B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488832A (zh) * | 2020-04-13 | 2020-08-04 | 捻果科技(深圳)有限公司 | 一种机场飞行区机位适用性检查作业规范的自动识别方法 |
CN111768429A (zh) * | 2020-06-01 | 2020-10-13 | 重庆大学 | 一种基于卡尔曼滤波和行人重识别算法的隧道环境下行人目标跟踪方法 |
CN112183600A (zh) * | 2020-09-22 | 2021-01-05 | 天津大学 | 一种基于动态记忆库模板更新的目标跟踪方法 |
CN113012203A (zh) * | 2021-04-15 | 2021-06-22 | 南京莱斯电子设备有限公司 | 一种复杂背景下高精度多目标跟踪方法 |
CN113052869A (zh) * | 2021-03-10 | 2021-06-29 | 五邑大学 | 一种基于智慧ai测温的轨迹跟踪方法、系统及存储介质 |
CN113283380A (zh) * | 2021-06-11 | 2021-08-20 | 张洁欣 | 基于3d卷积长短期记忆网络的儿童运动姿态自动识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927764A (zh) * | 2014-04-29 | 2014-07-16 | 重庆大学 | 一种结合目标信息和运动估计的车辆跟踪方法 |
CN109377517A (zh) * | 2018-10-18 | 2019-02-22 | 哈尔滨工程大学 | 一种基于视频追踪技术的动物个体识别系统 |
-
2019
- 2019-06-18 CN CN201910526422.5A patent/CN110321937B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927764A (zh) * | 2014-04-29 | 2014-07-16 | 重庆大学 | 一种结合目标信息和运动估计的车辆跟踪方法 |
CN109377517A (zh) * | 2018-10-18 | 2019-02-22 | 哈尔滨工程大学 | 一种基于视频追踪技术的动物个体识别系统 |
Non-Patent Citations (7)
Title |
---|
FAN BU ET AL.: "Multiple Object Tracking Based on Faster-RCNN Detector and KCF Tracker", 《HTTP://WWW-PERSONAL.UMICH.EDU/~YEEYOUNG/PUBLICATION/MOT.PDF》 * |
YUE ZHANG 等: "Vehicle Tracking Using Surveillance With Multimodal Data Fusion", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》 * |
叶运生: "基于深度学习的单目视觉车辆检测与跟踪研究", 《中国优秀博硕士学位论文全文数据库(硕士)》 * |
孙肖祯: "基于RGBD视频序列的行人跟踪算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)》 * |
张锐; 王兆魁: "基于深度学习的空间站舱内服务机器人视觉跟踪", 《上海航天》 * |
赵易峰,李京华,彭京晶,许家栋: "基于修正的卡尔曼滤波自适应跟踪算法", 《计算机仿真》 * |
陈凯, 宋晓, 刘敬: "基于深度卷积网络与尺度不变特征变换的行人跟踪框架", 《中国科学:信息科学 复杂系统只能仿真与控制专刊》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488832A (zh) * | 2020-04-13 | 2020-08-04 | 捻果科技(深圳)有限公司 | 一种机场飞行区机位适用性检查作业规范的自动识别方法 |
CN111768429A (zh) * | 2020-06-01 | 2020-10-13 | 重庆大学 | 一种基于卡尔曼滤波和行人重识别算法的隧道环境下行人目标跟踪方法 |
CN112183600A (zh) * | 2020-09-22 | 2021-01-05 | 天津大学 | 一种基于动态记忆库模板更新的目标跟踪方法 |
CN113052869A (zh) * | 2021-03-10 | 2021-06-29 | 五邑大学 | 一种基于智慧ai测温的轨迹跟踪方法、系统及存储介质 |
CN113012203A (zh) * | 2021-04-15 | 2021-06-22 | 南京莱斯电子设备有限公司 | 一种复杂背景下高精度多目标跟踪方法 |
CN113012203B (zh) * | 2021-04-15 | 2023-10-20 | 南京莱斯电子设备有限公司 | 一种复杂背景下高精度多目标跟踪方法 |
CN113283380A (zh) * | 2021-06-11 | 2021-08-20 | 张洁欣 | 基于3d卷积长短期记忆网络的儿童运动姿态自动识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110321937B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321937B (zh) | 一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法 | |
Kueng et al. | Low-latency visual odometry using event-based feature tracks | |
CN104200494B (zh) | 一种基于光流的实时视觉目标跟踪方法 | |
KR100224752B1 (ko) | 표적 추적 방법 및 장치 | |
CN110070565B (zh) | 一种基于图像叠加的船舶轨迹预测方法 | |
CN106875425A (zh) | 一种基于深度学习的多目标追踪系统及实现方法 | |
CN106331723B (zh) | 一种基于运动区域分割的视频帧率上变换方法及系统 | |
CN109410247A (zh) | 一种多模板和自适应特征选择的视频跟踪算法 | |
CN108876820B (zh) | 一种基于均值漂移的遮挡条件下移动目标追踪方法 | |
CN111199556A (zh) | 基于摄像头的室内行人检测和跟踪方法 | |
CN110544269A (zh) | 基于特征金字塔的孪生网络红外目标跟踪方法 | |
CN111275740B (zh) | 一种基于高分辨率孪生网络的卫星视频目标跟踪方法 | |
Piga et al. | Roft: Real-time optical flow-aided 6d object pose and velocity tracking | |
Tashlinskii et al. | Pixel-by-pixel estimation of scene motion in video | |
CN112132862B (zh) | 一种基于无人机的自适应尺度估计目标跟踪算法 | |
CN113344967A (zh) | 一种复杂背景下的动态目标识别追踪方法 | |
KR20140074201A (ko) | 추적 장치 | |
CN112767440A (zh) | 一种基于siam-fc网络的目标跟踪方法 | |
Zhang et al. | An optical flow based moving objects detection algorithm for the UAV | |
CN107437071B (zh) | 一种基于双黄线检测的机器人自主巡检方法 | |
CN109658441A (zh) | 基于深度信息的前景检测方法及装置 | |
Saunders et al. | Dyna-dm: Dynamic object-aware self-supervised monocular depth maps | |
CN107169997B (zh) | 面向夜间环境下的背景减除方法 | |
CN116777956A (zh) | 基于多尺度航迹管理的运动目标筛选方法 | |
Wei et al. | A target tracking algorithm for vision based sea cucumber capture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |