CN111652080A - 基于rgb-d图像的目标跟踪方法和装置 - Google Patents

基于rgb-d图像的目标跟踪方法和装置 Download PDF

Info

Publication number
CN111652080A
CN111652080A CN202010398775.4A CN202010398775A CN111652080A CN 111652080 A CN111652080 A CN 111652080A CN 202010398775 A CN202010398775 A CN 202010398775A CN 111652080 A CN111652080 A CN 111652080A
Authority
CN
China
Prior art keywords
frame
target
target tracking
ith
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010398775.4A
Other languages
English (en)
Other versions
CN111652080B (zh
Inventor
户磊
沈韬
朱海涛
陈智超
李立业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Dilusense Technology Co Ltd
Original Assignee
Hefei Dilusense Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Dilusense Technology Co Ltd filed Critical Hefei Dilusense Technology Co Ltd
Priority to CN202010398775.4A priority Critical patent/CN111652080B/zh
Publication of CN111652080A publication Critical patent/CN111652080A/zh
Application granted granted Critical
Publication of CN111652080B publication Critical patent/CN111652080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种基于RGB‑D图像的目标跟踪方法和装置,该方法包括:基于第i‑1帧是否发生目标被遮挡和第i帧对应的深度图像确定第i帧是否发生目标被遮挡;若是,则根据运动趋势预测第i帧的目标跟踪框位置RGB图像;若否,则将第i‑1帧的目标跟踪框位置RGB图像降维HOG特征输入第i帧的第n次更新的分类器输出第i帧的置信分图;基于置信分图确定第i帧目标跟踪框位置RGB图像,而第n次更新的分类器是基于第n‑1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的。本发明实施例提供的方法和装置,实现了考虑目标是否被遮挡且降低了目标跟踪的计算量。

Description

基于RGB-D图像的目标跟踪方法和装置
技术领域
本发明涉及深度图像技术领域,尤其涉及一种基于RGB-D图像的目标跟踪方法和装置。
背景技术
跟踪任务就是在给定某视频序列初始帧的目标大小与位置的情况下,预测后续帧中该目标的大小与位置,是计算机视觉中的一个重要研究方向,有着广泛的应用,如:视频监控,人机交互,无人驾驶等。
尽管科技发展迅速,RGB目标跟踪仍旧面临着诸多问题,比如:遮挡(Occlusion)、形变(Deformation)、尺度变换(Scale Variation)、背景杂乱(Background Clutter)、快速运动(Fast Motion)、旋转(Rotation)、实时性(Real Time)等。
因此,如何避免现有的RGB目标跟踪方法的考虑遮挡问题的欠缺,且计算量较大的情况,仍然是本领域技术人员亟待解决的问题。
发明内容
本发明实施例提供一种基于RGB-D图像的目标跟踪方法和装置,用以解决现有的RGB目标跟踪方法的考虑遮挡问题的欠缺且计算量较大的情况的问题。
第一方面,本发明实施例提供一种基于RGB-D图像的目标跟踪方法,包括:
对于待跟踪目标的视频序列,基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况;
若是,则根据运动趋势预测第i帧的目标跟踪框位置RGB图像;
若否,则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图;
基于所述置信分图确定第i帧的目标跟踪框位置RGB图像;
其中,所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的;所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器;第一次更新的分类器是基于所述待跟踪目标的视频序列的第一帧的人工标注目标跟踪框位置RGB图像和目标识别模板进行训练得到的;i、n、q和m均为正整数,且1<q≤m。
优选地,该方法中,所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的,所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器,具体包括:
所述待跟踪目标的视频序列的前i帧序列为A={A1,A2,A3,……,Ai};
去除所述前i帧序列中的发生目标被遮挡的K个帧,得到对应于所述前i帧序列的无遮挡帧序列B={B1,B2,B3,……,Bj},其中,j=i-K,并记录B中的元素与A中的元素的对应关系;
所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器;
第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧为从B中的元素Bm×(n-2)+1开始依次往后提取的q个B元素;
基于所述B中的元素与A中的元素的对应关系,确定所述q个B元素对应的q个A元素;
基于所述q个A元素确定第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本;
基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到第n次更新的分类器。
优选地,该方法中,所述基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况,具体包括:
基于k-means聚类算法输出第i帧对应的深度图的簇中形成连通的成分,基于所述成分对所述深度图中的目标进行区分;
基于所述目标区分结果确定目标框区域Robj
若i-1帧发生目标被遮挡,
当Φ(Robj)>λocc
Figure BDA0002488538510000031
则判定第i帧发生目标被遮挡;
当Φ(Rbc)<λocc
Figure BDA0002488538510000032
则判定第i帧未发生目标被遮挡;
若i-1帧未发生目标被遮挡,
当Φ(Robj)>λocc
Figure BDA0002488538510000033
则判定第i帧发生目标被遮挡;
当Φ(Rbc)<λocc
Figure BDA0002488538510000034
则判定第i帧未发生目标被遮挡;
其中,所述k-means聚类算法初始化时,确定k值为所述深度图的直方图的峰的个数,确定质心为所述直方图的各个峰对应的任意像素点的位置,Φ(Robj)表示第i帧的目标框区域Robj的深度值与深度图均值的差与两个目标框区域的深度图标准差之间的比率;f(z)max是第i帧的目标区域框的响应分;λocc
Figure BDA0002488538510000035
均为常数。
优选地,该方法中,所述根据运动趋势预测第i帧的目标跟踪框位置图像,具体包括:
对第i帧的目标状态X进行建模:
Figure BDA0002488538510000036
其中,u和v分别表示第i-1帧的目标中心的水平和垂直像素位置,s表示第i-1帧的目标面积和目标跟踪框的长的比,r表示第i-1帧的目标面积和目标跟踪框的宽的比,
Figure BDA0002488538510000037
Figure BDA0002488538510000038
表示第i-1帧的目标中心的水平和垂直像素位置,
Figure BDA0002488538510000039
表示第i-1帧的目标面积和目标跟踪框的长的比;
通过u、v、s和r基于卡尔曼最优地求解速度分量,确定
Figure BDA00024885385100000310
Figure BDA00024885385100000311
优选地,该方法中,所述将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图,具体包括:
将第i-1帧的目标跟踪框位置图像扩大h倍得到放大图像,再提取所述放大图像的降维HOG特征;
通过如下公式将所述降维HOG特征与第i帧对应的第n次更新的分类器fd进行卷积,得到第i帧对应的置信分图Sf{x}:
Figure BDA0002488538510000041
其中,D=3,D代表RGB三通道的个数,d的取值为1、2和3,分别代表R、G和B通道,fd为对应d通道的分类器,Jd{xd}为对应d通道的降维HOG特征。
优选地,该方法中,所述基于所述置信分图确定第i帧的目标跟踪框位置RGB图像,具体包括:
确定所述置信分图的峰值坐标,确定第i帧的目标跟踪框的中心点为该峰值坐标;
基于所述中心点确定第i帧的目标跟踪框位置RGB图像。
优选地,该方法中,还包括:
所述第n次更新的分类器的训练过程中,分类器f的损失函数E(f)通过如下公式确定:
Figure BDA0002488538510000042
其中,Sf{xj}为第j个目标跟踪框位置RGB图像样本的置信分图,yj为目标识别模板标签,αj为对应于第j个目标跟踪框位置RGB图像样本的权重,M为目标跟踪框位置RGB图像样本的个数,D=3,D代表RGB三通道的个数,d的取值为1、2和3,分别代表R、G和B通道,fd为对应d通道的分类器,W为防止过拟合系数。
第二方面,本发明实施例提供一种基于RGB-D图像的目标跟踪装置,包括:
判别单元,用于对于待跟踪目标的视频序列,基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况;若是,则根据运动趋势预测第i帧的目标跟踪框位置RGB图像;若否,则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图;
确定单元,用于基于所述置信分图确定第i帧的目标跟踪框位置RGB图像;其中,所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的;所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器;第一次更新的分类器是基于所述待跟踪目标的视频序列的第一帧的人工标注目标跟踪框位置RGB图像和目标识别模板进行训练得到的;i、n、q和m均为正整数,且1<q≤m。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的基于RGB-D图像的目标跟踪方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的基于RGB-D图像的目标跟踪方法的步骤。
本发明实施例提供的方法和装置,通过对于待跟踪目标的视频序列,基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况;若是,则根据运动趋势预测第i帧的目标跟踪框位置RGB图像;若否,则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图;基于所述置信分图确定第i帧的目标跟踪框位置RGB图像,其中,所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的。如此,本发明通过考虑第i帧是否发生目标被遮挡的情况,提供第i帧在目标是否发生被遮挡时不同的确定第i帧的目标跟踪框位置RGB图像的方法,同时,采用降维HOG特征也降低了计算量。因此,本发明实施例提供的方法和装置,实现了基于视频的深度图考虑目标是否被遮挡的问题,且降低了目标跟踪的计算量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于RGB-D图像的目标跟踪方法的流程示意图;
图2为本发明实施例提供的基于RGB-D图像的目标跟踪装置的结构示意图;
图3为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的基于RGB图的目标跟踪方法普遍存在考虑目标被遮挡欠缺和计算量大的问题。对此,本发明实施例提供了一种基于足底压力的足旋前检测方法。图1为本发明实施例提供的基于RGB-D图像的目标跟踪方法的流程示意图,如图1所示,该方法包括:
步骤110,对于待跟踪目标的视频序列,基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况;若是,则根据运动趋势预测第i帧的目标跟踪框位置RGB图像;若否,则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图。
具体地,现有的基于待跟踪目标的视频序列来进行待跟踪视频中的目标识别的过程通常是采集视频中每一帧的RGB图像,然后对每一RGB图像进行识别分析提取目标区域。而本发明实施例提供的目标跟踪方法需要采集视频序列是包含深度图的视频序列,即要确定该视频序列中每一帧图像中的目标区域时,首先要基于该帧对应的深度图判定该帧是否发生目标被其他物体遮挡的情况,发生目标被遮挡和未发生目标被遮挡时确定该帧对应的RGB图像中的目标区域的方法不同。进行目标跟踪时,通常是从该待跟踪目标的视频序列的第一帧开始识别第一帧图像中的目标区域,直到从该待跟踪目标的视频序列的当前帧开始识别当前帧图像中的目标区域,如此可以做到实时跟踪。本发明实施例中,要判断当前帧即第i帧是否发生目标被遮挡需要结合考虑前一帧即第i-1帧是否发生目标被跟踪以及当前帧即第i帧的深度图。若判断结果是第i帧发生目标被遮挡,则根据运动趋势预测第i帧的目标跟踪框位置,然后提取该目标跟踪框位置RGB图像;若判断结果是第i帧未发生目标被遮挡,则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图。对于未发生目标被遮挡的帧,每隔m个帧更新一次分类器,第i帧对应的是第n次更新的分类器,其中,i、n和m均为正整数。
步骤120,基于所述置信分图确定第i帧的目标跟踪框位置RGB图像;其中,所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的;所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器;第一次更新的分类器是基于所述待跟踪目标的视频序列的第一帧的人工标注目标跟踪框位置RGB图像和目标识别模板进行训练得到的;i、n、q和m均为正整数,且1<q≤m。
具体地,基于所述置信分图确定第i帧的目标跟踪框位置RGB图像,即确定所述置信分图的峰值坐标,将所述峰值坐标作为待检测目标跟踪框的中心点,然后根据预先设定的目标跟踪框的长宽值,可以确定目标跟踪框的位置,然后基于所述目标跟踪框的位置可以提取出第i帧对应的RGB图像中的目标跟踪框位置RGB图像。此处也进一步定义了待跟踪目标的视频序列中的第i帧对应的第n次更新的分类器的训练方法,是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的,其中,待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器。举例说明,m的取值为4,待跟踪目标的视频序列中未发生目标被遮挡的帧为a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,a13,a14,a15,a16,a17,a18,a19,a20,那么{a1,a2,a3,a4}对应第1次更新的分类器,{a5,a6,a7,a8}对应第2次更新的分类器,{a9,a10,a11,a12}对应第3次更新的分类器,{a13,a14,a15,a16}对应第4次更新的分类器,{a17,a18,a19,a20}对应第5次更新的分类器,若q=3,则第2次更新的分类器是基于a1,a2和a3的目标跟踪框位置RGB图像样本进行训练得到,第3次更新的分类器是基于a5,a6和a7的目标跟踪框位置RGB图像样本进行训练得到,第4次更新的分类器是基于a9,a10和a11的目标跟踪框位置RGB图像样本进行训练得到,第5次更新的分类器是基于a13,a14和a15的目标跟踪框位置RGB图像样本进行训练得到。第一次更新的分类器是基于所述待跟踪目标的视频序列的第一帧的人工标注目标跟踪框位置RGB图像和目标识别模板进行训练得到的。其中,目标识别模板是一种中间区域像素为255,其他区域像素为0的标准目标居中模板,而中间区域的位置面积可以预先设定调整。
本发明实施例提供的方法,通过对于待跟踪目标的视频序列,基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况;若是,则根据运动趋势预测第i帧的目标跟踪框位置RGB图像;若否,则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图;基于所述置信分图确定第i帧的目标跟踪框位置RGB图像,其中,所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的。如此,本发明通过考虑第i帧是否发生目标被遮挡的情况,提供第i帧在目标是否发生被遮挡时不同的确定第i帧的目标跟踪框位置RGB图像的方法,同时,采用降维HOG特征也降低了计算量。因此,本发明实施例提供的方法,实现了基于视频的深度图考虑目标是否被遮挡的问题,且降低了目标跟踪的计算量。
基于上述实施例,该方法中,所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的,所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器,具体包括:
所述待跟踪目标的视频序列的前i帧序列为A={A1,A2,A3,……,Ai};
去除所述前i帧序列中的发生目标被遮挡的K个帧,得到对应于所述前i帧序列的无遮挡帧序列B={B1,B2,B3,……,Bj},其中,j=i-K,并记录B中的元素与A中的元素的对应关系;
所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器;
第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧为从B中的元素Bm×(n-2)+1开始依次往后提取的q个B元素;
基于所述B中的元素与A中的元素的对应关系,确定所述q个B元素对应的q个A元素;
基于所述q个A元素确定第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本;
基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到第n次更新的分类器。
具体地,进行第n次更新的分类器的训练时,首先要确定训练样本,而训练样本是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧确定的目标跟踪框位置RGB图像样本。若所述待跟踪目标的视频序列的前i帧序列为A={A1,A2,A3,……,Ai};去除所述前i帧序列中的发生目标被遮挡的K个帧,得到对应于所述前i帧序列的无遮挡帧序列B={B1,B2,B3,……,Bj},其中,j=i-K,并记录B中的元素与A中的元素的对应关系;由于待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器,因此,可以确定第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧为从B中的元素Bm×(n-2)+1开始依次往后提取的q个B元素,即是Bm×(n-2)+1、Bm×(n-2)+2、......、Bm×(n-2)+q,然后基于B中的元素与A中的元素的对应关系,可以确定对应的q个A元素,基于所述q个A元素确定第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本,都是将前一个的A元素目标跟踪框位置RGB图像输入第n-1次更新的分类器输出得到下一个A元素目标跟踪框位置RGB图像。最后,基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到第n次更新的分类器。再使用样本训练分类器时,优选地,通过使用混合高斯模型(GMM)来生成不同的组件,每一个组件对应一组比较相似的样本,不同的组件之间有较大的差异性,如此,使得训练样本具有多样性。
基于上述任一实施例,该方法中,所述基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况,具体包括:
基于k-means聚类算法输出第i帧对应的深度图的簇中形成连通的成分,基于所述成分对所述深度图中的目标进行区分;
基于所述目标区分结果确定目标框区域Robj
若i-1帧发生目标被遮挡,
当Φ(Robj)>λocc
Figure BDA0002488538510000101
则判定第i帧发生目标被遮挡;
当Φ(Rbc)<λocc
Figure BDA0002488538510000102
则判定第i帧未发生目标被遮挡;
若i-1帧未发生目标被遮挡,
当Φ(Robj)>λocc
Figure BDA0002488538510000103
则判定第i帧发生目标被遮挡;
当Φ(Rbc)<λocc
Figure BDA0002488538510000104
则判定第i帧未发生目标被遮挡;
其中,所述k-means聚类算法初始化时,确定k值为所述深度图的直方图的峰的个数,确定质心为所述直方图的各个峰对应的任意像素点的位置,Φ(Robj)表示第i帧的目标框区域Robj的深度值与深度图均值的差与两个目标框区域的深度图标准差之间的比率;f(z)max是第i帧的目标区域框的响应分;λocc
Figure BDA0002488538510000111
均为常数。
具体地,判定第i帧是否发生目标被遮挡需要考虑第i-1帧的目标是否被遮挡情况以及第i帧的深度图的情况。对于第i帧的深度图,进行k-means聚类算法处理,输出第i帧对应的深度图的簇中形成连通的成分,基于所述成分对所述深度图中的目标进行区分;基于所述目标区分结果确定目标框区域Robj。若i-1帧发生目标被遮挡,当Φ(Robj)>λocc
Figure BDA0002488538510000112
则判定第i帧发生目标被遮挡;当Φ(Rbc)<λocc
Figure BDA0002488538510000113
则判定第i帧未发生目标被遮挡;若i-1帧未发生目标被遮挡,当Φ(Robj)>λocc
Figure BDA0002488538510000114
则判定第i帧发生目标被遮挡;当Φ(Rbc)<λocc
Figure BDA0002488538510000115
则判定第i帧未发生目标被遮挡,所述k-means聚类算法初始化时,确定k值为所述深度图的直方图的峰的个数,确定质心为所述直方图的各个峰对应的任意像素点的位置,Φ(Robj)表示第i帧的目标框区域Robj的深度值与深度图均值的差与两个目标框区域的深度图标准差之间的比率;f(z)max是第i帧的目标区域框的响应分;λocc
Figure BDA0002488538510000116
均为常数,优选地,λocc=0.35,
Figure BDA0002488538510000117
基于上述任一实施例,该方法中,所述根据运动趋势预测第i帧的目标跟踪框位置图像,具体包括:
对第i帧的目标状态X进行建模:
Figure BDA0002488538510000118
其中,u和v分别表示第i-1帧的目标中心的水平和垂直像素位置,s表示第i-1帧的目标面积和目标跟踪框的长的比,r表示第i-1帧的目标面积和目标跟踪框的宽的比,
Figure BDA0002488538510000119
Figure BDA00024885385100001110
表示第i-1帧的目标中心的水平和垂直像素位置,
Figure BDA00024885385100001111
表示第i-1帧的目标面积和目标跟踪框的长的比;
通过u、v、s和r基于卡尔曼最优地求解速度分量,确定
Figure BDA00024885385100001112
Figure BDA00024885385100001113
具体地,对视频帧中的目标物体的状态X进行建模:
Figure BDA00024885385100001114
其中,u和v分别表示第i-1帧的目标中心的水平和垂直像素位置,s表示第i-1帧的目标面积和目标跟踪框的长的比,r表示第i-1帧的目标面积和目标跟踪框的宽的比,
Figure BDA00024885385100001115
Figure BDA00024885385100001116
表示第i-1帧的目标中心的水平和垂直像素位置,
Figure BDA00024885385100001117
表示第i-1帧的目标面积和目标跟踪框的长的比;通过u、v、s和r基于卡尔曼最优地求解速度分量,确定
Figure BDA00024885385100001118
Figure BDA00024885385100001119
基于上述任一实施例,该方法中,所述将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图,具体包括:
将第i-1帧的目标跟踪框位置图像扩大h倍得到放大图像,再提取所述放大图像的降维HOG特征;
通过如下公式将所述降维HOG特征与第i帧对应的第n次更新的分类器fd进行卷积,得到第i帧对应的置信分图Sf{x}:
Figure BDA0002488538510000121
其中,D=3,D代表RGB三通道的个数,d的取值为1、2和3,分别代表R、G和B通道,fd为对应d通道的分类器,Jd{xd}为对应d通道的降维HOG特征。
具体地,将第i-1帧的目标跟踪框位置图像扩大h倍得到放大图像,再提取所述放大图像的降维HOG特征,其中,h>1。进一步地,提取降维HOG特征过程如下:将RGB图像灰度化,使用伽马校正对图像颜色空间进行标准化,将检测区域划分成大小相同的单元(cell),并计算其梯度信息,将相邻的单元组合成块(block),进行归一化处理,将所有块的HOG特征组合起来,作为特征。在计算梯度信息的过程中,平均设置18个梯度方向,其中梯度方向
Figure BDA0002488538510000122
根据梯度的幅值和方向可以计算出当前点的梯度,每个梯度特征用4个相邻的块(block)去归一化,可以得到72维特征,再继续对72维特征进行降维,将HOG特征沿着梯度方向进行求和,即每个梯度方向对应的4个块进行求和,最后得到18维HOG特征。通过如下公式将所述降维HOG特征与第i帧对应的第n次更新的分类器fd进行卷积,得到第i帧对应的置信分图Sf{x}:
Figure BDA0002488538510000123
其中,D=3,D代表RGB三通道的个数,d的取值为1、2和3,分别代表R、G和B通道,fd为对应d通道的分类器,Jd{xd}为对应d通道的降维HOG特征。
基于上述任一实施例,该方法中,所述基于所述置信分图确定第i帧的目标跟踪框位置RGB图像,具体包括:
确定所述置信分图的峰值坐标,确定第i帧的目标跟踪框的中心点为该峰值坐标;
基于所述中心点确定第i帧的目标跟踪框位置RGB图像。
具体地,确定置信分图的峰值坐标,然后将该峰值坐标作为第i帧的目标跟踪框的中心点,然后,再根据预先设定的目标跟踪框的大小,确定出目标跟踪框位置信息,最后提取出目标跟踪框位置RGB图像。
基于上述任一实施例,该方法中,还包括:
所述第n次更新的分类器的训练过程中,分类器f的损失函数E(f)通过如下公式确定:
Figure BDA0002488538510000131
其中,Sf{xj}为第j个目标跟踪框位置RGB图像样本的置信分图,yj为目标识别模板标签,αj为对应于第j个目标跟踪框位置RGB图像样本的权重,M为目标跟踪框位置RGB图像样本的个数,D=3,D代表RGB三通道的个数,d的取值为1、2和3,分别代表R、G和B通道,fd为对应d通道的分类器,W为防止过拟合系数。
具体地,该损失函数中的
Figure BDA0002488538510000132
这一项代表的是各样本输入分类器的输出结果与标签之间的差的和,该损失函数中的
Figure BDA0002488538510000133
这一项代表的是防止过拟合项。
基于上述任一实施例,本发明实施例提供一种基于RGB-D图像的目标跟踪装置,图2为本发明实施例提供的基于RGB-D图像的目标跟踪装置的结构示意图。如图2所示,该装置包括判别单元210和确定单元220,其中,
所述判别单元,用于对于待跟踪目标的视频序列,基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况;若是,则根据运动趋势预测第i帧的目标跟踪框位置RGB图像;若否,则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图;
确定单元,用于基于所述置信分图确定第i帧的目标跟踪框位置RGB图像;其中,所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的;所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器;第一次更新的分类器是基于所述待跟踪目标的视频序列的第一帧的人工标注目标跟踪框位置RGB图像和目标识别模板进行训练得到的;i、n、q和m均为正整数,且1<q≤m。
本发明实施例提供的装置,通过对于待跟踪目标的视频序列,基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况;若是,则根据运动趋势预测第i帧的目标跟踪框位置RGB图像;若否,则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图;基于所述置信分图确定第i帧的目标跟踪框位置RGB图像,其中,所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的。如此,本发明通过考虑第i帧是否发生目标被遮挡的情况,提供第i帧在目标是否发生被遮挡时不同的确定第i帧的目标跟踪框位置RGB图像的方法,同时,采用降维HOG特征也降低了计算量。因此,本发明实施例提供的装置,实现了基于视频的深度图考虑目标是否被遮挡的问题,且降低了目标跟踪的计算量。
基于上述任一实施例,该装置中,所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的,所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器,具体包括:
所述待跟踪目标的视频序列的前i帧序列为A={A1,A2,A3,……,Ai};
去除所述前i帧序列中的发生目标被遮挡的K个帧,得到对应于所述前i帧序列的无遮挡帧序列B={B1,B2,B3,……,Bj},其中,j=i-K,并记录B中的元素与A中的元素的对应关系;
所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器;
第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧为从B中的元素Bm×(n-2)+1开始依次往后提取的q个B元素;
基于所述B中的元素与A中的元素的对应关系,确定所述q个B元素对应的q个A元素;
基于所述q个A元素确定第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本;
基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到第n次更新的分类器。
基于上述任一实施例,该装置中,所述基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况,具体包括:
基于k-means聚类算法输出第i帧对应的深度图的簇中形成连通的成分,基于所述成分对所述深度图中的目标进行区分;
基于所述目标区分结果确定目标框区域Robj
若i-1帧发生目标被遮挡,
当Φ(Robj)>λocc
Figure BDA0002488538510000151
则判定第i帧发生目标被遮挡;
当Φ(Rbc)<λocc
Figure BDA0002488538510000152
则判定第i帧未发生目标被遮挡;
若i-1帧未发生目标被遮挡,
当Φ(Robj)>λocc
Figure BDA0002488538510000153
则判定第i帧发生目标被遮挡;
当Φ(Rbc)<λocc
Figure BDA0002488538510000154
则判定第i帧未发生目标被遮挡;
其中,所述k-means聚类算法初始化时,确定k值为所述深度图的直方图的峰的个数,确定质心为所述直方图的各个峰对应的任意像素点的位置,Φ(Robj)表示第i帧的目标框区域Robj的深度值与深度图均值的差与两个目标框区域的深度图标准差之间的比率;f(z)max是第i帧的目标区域框的响应分;λocc
Figure BDA0002488538510000161
均为常数。
基于上述任一实施例,该装置中,所述根据运动趋势预测第i帧的目标跟踪框位置图像,具体包括:
对第i帧的目标状态X进行建模:
Figure BDA0002488538510000162
其中,u和v分别表示第i-1帧的目标中心的水平和垂直像素位置,s表示第i-1帧的目标面积和目标跟踪框的长的比,r表示第i-1帧的目标面积和目标跟踪框的宽的比,
Figure BDA0002488538510000163
Figure BDA0002488538510000164
表示第i-1帧的目标中心的水平和垂直像素位置,
Figure BDA0002488538510000165
表示第i-1帧的目标面积和目标跟踪框的长的比;
通过u、v、s和r基于卡尔曼最优地求解速度分量,确定
Figure BDA0002488538510000166
Figure BDA0002488538510000167
基于上述任一实施例,该装置中,所述将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图,具体包括:
将第i-1帧的目标跟踪框位置图像扩大h倍得到放大图像,再提取所述放大图像的降维HOG特征;
通过如下公式将所述降维HOG特征与第i帧对应的第n次更新的分类器fd进行卷积,得到第i帧对应的置信分图Sf{x}:
Figure BDA0002488538510000168
其中,D=3,D代表RGB三通道的个数,d的取值为1、2和3,分别代表R、G和B通道,fd为对应d通道的分类器,Jd{xd}为对应d通道的降维HOG特征。
基于上述任一实施例,该装置中,所述基于所述置信分图确定第i帧的目标跟踪框位置RGB图像,具体包括:
确定所述置信分图的峰值坐标,确定第i帧的目标跟踪框的中心点为该峰值坐标;
基于所述中心点确定第i帧的目标跟踪框位置RGB图像。
基于上述任一实施例,该装置中,所述确定单元,还用于,
所述第n次更新的分类器的训练过程中,分类器f的损失函数E(f)通过如下公式确定:
Figure BDA0002488538510000171
其中,Sf{xj}为第j个目标跟踪框位置RGB图像样本的置信分图,yj为目标识别模板标签,αj为对应于第j个目标跟踪框位置RGB图像样本的权重,M为目标跟踪框位置RGB图像样本的个数,D=3,D代表RGB三通道的个数,d的取值为1、2和3,分别代表R、G和B通道,fd为对应d通道的分类器,W为防止过拟合系数。
图3为本发明实施例提供的电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储在存储器303上并可在处理器301上运行的计算机程序,以执行上述各实施例提供的基于RGB-D图像的目标跟踪方法,例如包括:对于待跟踪目标的视频序列,基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况;若是,则根据运动趋势预测第i帧的目标跟踪框位置RGB图像;若否,则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图;基于所述置信分图确定第i帧的目标跟踪框位置RGB图像;其中,所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的;所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器;第一次更新的分类器是基于所述待跟踪目标的视频序列的第一帧的人工标注目标跟踪框位置RGB图像和目标识别模板进行训练得到的;i、n、q和m均为正整数,且1<q≤m。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于RGB-D图像的目标跟踪方法,例如包括:对于待跟踪目标的视频序列,基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况;若是,则根据运动趋势预测第i帧的目标跟踪框位置RGB图像;若否,则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图;基于所述置信分图确定第i帧的目标跟踪框位置RGB图像;其中,所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的;所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器;第一次更新的分类器是基于所述待跟踪目标的视频序列的第一帧的人工标注目标跟踪框位置RGB图像和目标识别模板进行训练得到的;i、n、q和m均为正整数,且1<q≤m。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于RGB-D图像的目标跟踪方法,其特征在于,包括:
对于待跟踪目标的视频序列,基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况;
若是,则根据运动趋势预测第i帧的目标跟踪框位置RGB图像;
若否,则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图;
基于所述置信分图确定第i帧的目标跟踪框位置RGB图像;
其中,所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的;所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器;第一次更新的分类器是基于所述待跟踪目标的视频序列的第一帧的人工标注目标跟踪框位置RGB图像和目标识别模板进行训练得到的;i、n、q和m均为正整数,且1<q≤m。
2.根据权利要求1所述的基于RGB-D图像的目标跟踪方法,其特征在于,所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的,所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器,具体包括:
所述待跟踪目标的视频序列的前i帧序列为A={A1,A2,A3,……,Ai};
去除所述前i帧序列中的发生目标被遮挡的K个帧,得到对应于所述前i帧序列的无遮挡帧序列B={B1,B2,B3,……,Bj},其中,j=i-K,并记录B中的元素与A中的元素的对应关系;
所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器;
第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧为从B中的元素Bm×(n-2)+1开始依次往后提取的q个B元素;
基于所述B中的元素与A中的元素的对应关系,确定所述q个B元素对应的q个A元素;
基于所述q个A元素确定第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本;
基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到第n次更新的分类器。
3.根据权利要求1所述的基于RGB-D图像的目标跟踪方法,其特征在于,所述基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况,具体包括:
基于k-means聚类算法输出第i帧对应的深度图的簇中形成连通的成分,基于所述成分对所述深度图中的目标进行区分;
基于所述目标区分结果确定目标框区域Robj
若i-1帧发生目标被遮挡,
当Φ(Robj)>λocc
Figure FDA0002488538500000021
则判定第i帧发生目标被遮挡;
当Φ(Rbc)<λocc
Figure FDA0002488538500000022
则判定第i帧未发生目标被遮挡;
若i-1帧未发生目标被遮挡,
当Φ(Robj)>λocc
Figure FDA0002488538500000023
则判定第i帧发生目标被遮挡;
当Φ(Rbc)<λocc
Figure FDA0002488538500000024
则判定第i帧未发生目标被遮挡;
其中,所述k-means聚类算法初始化时,确定k值为所述深度图的直方图的峰的个数,确定质心为所述直方图的各个峰对应的任意像素点的位置,Φ(Robj)表示第i帧的目标框区域Robj的深度值与深度图均值的差与两个目标框区域的深度图标准差之间的比率;f(z)max是第i帧的目标区域框的响应分;λocc
Figure FDA0002488538500000025
均为常数。
4.根据权利要求1所述的基于RGB-D图像的目标跟踪方法,其特征在于,所述根据运动趋势预测第i帧的目标跟踪框位置图像,具体包括:
对第i帧的目标状态X进行建模:
Figure FDA0002488538500000026
其中,u和v分别表示第i-1帧的目标中心的水平和垂直像素位置,s表示第i-1帧的目标面积和目标跟踪框的长的比,r表示第i-1帧的目标面积和目标跟踪框的宽的比,
Figure FDA0002488538500000031
Figure FDA0002488538500000032
表示第i-1帧的目标中心的水平和垂直像素位置,
Figure FDA0002488538500000033
表示第i-1帧的目标面积和目标跟踪框的长的比;
通过u、v、s和r基于卡尔曼最优地求解速度分量,确定
Figure FDA0002488538500000034
Figure FDA0002488538500000035
5.根据权利要求1所述的基于RGB-D图像的目标跟踪方法,其特征在于,所述将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图,具体包括:
将第i-1帧的目标跟踪框位置图像扩大h倍得到放大图像,再提取所述放大图像的降维HOG特征;
通过如下公式将所述降维HOG特征与第i帧对应的第n次更新的分类器fd进行卷积,得到第i帧对应的置信分图Sf{x}:
Figure FDA0002488538500000036
其中,D=3,D代表RGB三通道的个数,d的取值为1、2和3,分别代表R、G和B通道,fd为对应d通道的分类器,Jd{xd}为对应d通道的降维HOG特征。
6.根据权利要求1所述的基于RGB-D图像的目标跟踪方法,其特征在于,所述基于所述置信分图确定第i帧的目标跟踪框位置RGB图像,具体包括:
确定所述置信分图的峰值坐标,确定第i帧的目标跟踪框的中心点为该峰值坐标;
基于所述中心点确定第i帧的目标跟踪框位置RGB图像。
7.根据权利要求1-6中任一项所述的基于RGB-D图像的目标跟踪方法,其特征在于,还包括:
所述第n次更新的分类器的训练过程中,分类器f的损失函数E(f)通过如下公式确定:
Figure FDA0002488538500000037
其中,Sf{xj}为第j个目标跟踪框位置RGB图像样本的置信分图,yj为目标识别模板标签,αj为对应于第j个目标跟踪框位置RGB图像样本的权重,M为目标跟踪框位置RGB图像样本的个数,D=3,D代表RGB三通道的个数,d的取值为1、2和3,分别代表R、G和B通道,fd为对应d通道的分类器,W为防止过拟合系数。
8.一种基于RGB-D图像的目标跟踪装置,其特征在于,包括:
判别单元,用于对于待跟踪目标的视频序列,基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况;若是,则根据运动趋势预测第i帧的目标跟踪框位置RGB图像;若否,则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图;
确定单元,用于基于所述置信分图确定第i帧的目标跟踪框位置RGB图像;其中,所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的;所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器;第一次更新的分类器是基于所述待跟踪目标的视频序列的第一帧的人工标注目标跟踪框位置RGB图像和目标识别模板进行训练得到的;i、n、q和m均为正整数,且1<q≤m。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的基于RGB-D图像的目标跟踪方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于RGB-D图像的目标跟踪方法的步骤。
CN202010398775.4A 2020-05-12 2020-05-12 基于rgb-d图像的目标跟踪方法和装置 Active CN111652080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010398775.4A CN111652080B (zh) 2020-05-12 2020-05-12 基于rgb-d图像的目标跟踪方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010398775.4A CN111652080B (zh) 2020-05-12 2020-05-12 基于rgb-d图像的目标跟踪方法和装置

Publications (2)

Publication Number Publication Date
CN111652080A true CN111652080A (zh) 2020-09-11
CN111652080B CN111652080B (zh) 2023-10-17

Family

ID=72349258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010398775.4A Active CN111652080B (zh) 2020-05-12 2020-05-12 基于rgb-d图像的目标跟踪方法和装置

Country Status (1)

Country Link
CN (1) CN111652080B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800970A (zh) * 2021-01-29 2021-05-14 北京字跳网络技术有限公司 一种人脸图像处理方法、装置、设备及存储介质
CN112967399A (zh) * 2021-03-31 2021-06-15 东莞中国科学院云计算产业技术创新与育成中心 三维时序图像生成方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160335487A1 (en) * 2014-04-22 2016-11-17 Tencent Technology (Shenzhen) Company Limited Hand motion identification method and apparatus
WO2019041519A1 (zh) * 2017-08-29 2019-03-07 平安科技(深圳)有限公司 目标跟踪装置、方法及计算机可读存储介质
CN110929560A (zh) * 2019-10-11 2020-03-27 杭州电子科技大学 融合目标检测与跟踪的视频半自动目标标注方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160335487A1 (en) * 2014-04-22 2016-11-17 Tencent Technology (Shenzhen) Company Limited Hand motion identification method and apparatus
WO2019041519A1 (zh) * 2017-08-29 2019-03-07 平安科技(深圳)有限公司 目标跟踪装置、方法及计算机可读存储介质
CN110929560A (zh) * 2019-10-11 2020-03-27 杭州电子科技大学 融合目标检测与跟踪的视频半自动目标标注方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
包晓安;詹秀娟;王强;胡玲玲;桂江生;: "基于KCF和SIFT特征的抗遮挡目标跟踪算法" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800970A (zh) * 2021-01-29 2021-05-14 北京字跳网络技术有限公司 一种人脸图像处理方法、装置、设备及存储介质
CN112967399A (zh) * 2021-03-31 2021-06-15 东莞中国科学院云计算产业技术创新与育成中心 三维时序图像生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111652080B (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
CN108256562B (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
US10229346B1 (en) Learning method, learning device for detecting object using edge image and testing method, testing device using the same
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
CN108229322B (zh) 基于视频的人脸识别方法、装置、电子设备及存储介质
CN106960195B (zh) 一种基于深度学习的人群计数方法及装置
CN112132156B (zh) 多深度特征融合的图像显著性目标检测方法及系统
US10445602B2 (en) Apparatus and method for recognizing traffic signs
US8023701B2 (en) Method, apparatus, and program for human figure region extraction
CN111461213B (zh) 一种目标检测模型的训练方法、目标快速检测方法
CN113052873B (zh) 一种在线自监督学习场景适应的单目标跟踪方法
CN110363165B (zh) 基于tsk模糊系统的多目标跟踪方法、装置及存储介质
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN112906794A (zh) 一种目标检测方法、装置、存储介质及终端
CN109685830B (zh) 目标跟踪方法、装置和设备及计算机存储介质
CN111652080A (zh) 基于rgb-d图像的目标跟踪方法和装置
CN110349188A (zh) 基于tsk模糊模型的多目标跟踪方法、装置及存储介质
CN112541394A (zh) 黑眼圈及鼻炎识别方法、系统及计算机介质
CN111694954B (zh) 图像分类方法、装置和电子设备
CN113255557A (zh) 一种基于深度学习的视频人群情绪分析方法及系统
CN110163103B (zh) 一种基于视频图像的生猪行为识别方法和装置
CN110827327B (zh) 一种基于融合的长期目标跟踪方法
CN114219936A (zh) 目标检测方法、电子设备、存储介质和计算机程序产品
CN107679467B (zh) 一种基于hsv和sdalf的行人重识别算法实现方法
CN111814653B (zh) 一种视频中异常行为的检测方法、装置、设备及存储介质
CN111626197B (zh) 一种基于人体行为识别网络模型的识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant