CN102812491B - 跟踪方法 - Google Patents

跟踪方法 Download PDF

Info

Publication number
CN102812491B
CN102812491B CN201080059711.6A CN201080059711A CN102812491B CN 102812491 B CN102812491 B CN 102812491B CN 201080059711 A CN201080059711 A CN 201080059711A CN 102812491 B CN102812491 B CN 102812491B
Authority
CN
China
Prior art keywords
region
deactivation
rule
pixel
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080059711.6A
Other languages
English (en)
Other versions
CN102812491A (zh
Inventor
X·巴埃莱
L·吉格
J·马丁内斯冈萨雷斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Depthsensing Solutions NV SA
Original Assignee
Softkinetic SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Softkinetic SA filed Critical Softkinetic SA
Publication of CN102812491A publication Critical patent/CN102812491A/zh
Application granted granted Critical
Publication of CN102812491B publication Critical patent/CN102812491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种用于跟踪在一序列帧中的至少一个对象的方法,每一个帧包括像素阵列,其中深度值与每一个像素相关联。该方法包括:将每一个帧的所述像素中的至少一些像素分组到数个区域中;将所述区域分组到相互连接的区域的聚类(B1、...、B5)中;以及如果在二维投影中相邻于另一个聚类(B1)的聚类(B2、...、B5)具有与所述其他聚类(B1)的深度值不同的深度值,则确定它属于被所述其他聚类(B1)部分遮挡的对象。

Description

跟踪方法
技术领域
本发明涉及一种用于跟踪帧序列中的至少一个对象的方法,每一个帧包括一个像素阵列,其中深度值与每一个像素相关联。
背景技术
为了跟踪现实的对象,早已提出使用数据处理设备,该数据处理设备被连接到成像设备并且被编程以便跟踪视频序列中的该对象,该视频序列由该成像设备产生并且包括一序列的连续帧,每一个帧包括像素阵列。
例如,Wel Du和Justus Piater的论文“Tracking by Cluster Analysis ofFeature Points using a Mixture Particle Filter”公开了一种使用Harris角点检测器和Lucas-Kanade跟踪器来跟踪视频序列中的对象的方法。然而,因为此方法被应用于不具有像素深度信息的二维视频序列,所以尽管有相当大的数据处理需求,但其性能有限。
公开用于跟踪具有二维像素阵列的视频序列中的一个或数个对象的方法的一些其他相关论文是:
S.Mckenna、S.Jabri、Z.Duric和H.Wechsler,“Tracking Groups ofPeople”,Computer Vision and Image Understanding,2000;
F.Brémond和M.Thonnat,“Tracking multiple nonrigid objects in videosequences”,IEEE Trans.On Circuits and Systems for Video Techniques,1998;
I Haritaoglu,“A Real Time System for Detection and Tracking of Peopleand Recognizing Their Activities”,University of Maryland,1998;
G.Pingali、Y.Jean和A.Opalach,“Ball Tracking and Virtual Replays forInnovative Tennis Broadcasts”,15th Int.Conference on Pattern Recognition。
然而,因为在不具有任何直接像素深度信息的2D视频序列上执行这些跟踪方法,所以它们的性能必然是有限的,因为图像分割仅可以基于诸如颜色、形状或纹理之类的其它对象属性。
已提出了(例如在国际专利申请WO2008/128568中)使用提供视频序列的3D成像系统,其中深度值与每一帧的每个像素相关联。与基于纯粹二维图像的方法相比,这样的跟踪方法产生与被跟踪对象有关的多得多的位置信息。特别地,3D成像系统的使用有助于前景与背景之间的辨别。然而,所公开的方法没有解决跟踪多于一个对象的问题,以及特别地,跟踪在该3D成像系统的视野中被另一对象至少部分地遮挡的对象的问题。在WO2008/128568中,公开了一种用于辨识三维空间中的体积的方法,其中三维图像数据包括该三维空间中的多个点。这些点是聚类的,并且聚类被选择作为兴趣点。将所选择的聚类中的点再分组到子聚类中,每个子聚类具有质心和与该质心相关联的体积。可以连接质心以形成表示对象的网络,并且极点被识别为连接到仅一个其他质心的质心。
A.Azerbayerjani和C.Wren在“Real-Time 3D Tracking of the HumanBody”,Proc.of Image’com,1996中,并且T.Olson和F.Brill在“MovingObject Detection and Event Recognition Algorithms For Smart Cameras”,Proc.Image Understanding Workshop,1997中已经公开了使用3D视频序列但无法解决遮挡问题的其它跟踪方法。
一些其它公开物已解决了该遮挡问题。Liège大学的电子工程与计算机科学系的Pierre F.Gabriel、Jacques G.Verly、Justus H.Piater和AndréGenon在他们的评论文章“The State of the Art in Multiple Object Tracking UnderOcclusion in Video Sequences”中已呈现各种方法中的若干。
在“Probabilistic framework for segmenting people under occlusion”,Proc.of IEEE 8th International Conference on Computer Vision,2001中的A.Elgammal和L.S.Davis;在“Hydra:Multiple People Detection and Tracking”,Workshop of Video Surveillance,1999中的I.Haritaoglu、D.Harwood和L.Davis;在“Tracking People in Presence of Occlusion”,Asian Conference onComputer Vision,2000中的S.Khan和M.Shah;在“Multiple People TrackingUsing an Appearance Model Based on Temporal Color”,InternationalConference on Pattern Recognition,2000中的H.K.Roh和S.W.Lee;以及在“Appearance Models for Occlusion Handling”,2nd International Workshop onPerformance Evaluation of Tracking and Surveillance Systems,2001中的A.W.Senior、A.Hampapur、L.M.Brown、Y.Tian、S.Pankanti和R.M.Bolle已经公开了解决该遮挡问题的跟踪方法。然而,因为所有这些方法是基于仅包括不具有任何深度数据的二维像素阵列的2D或立体视频序列,所以它们的性能是有限的。
在“The KidsRoom:A Perceptually based interactive and immersive storyenvironment”,Teleoperators and Virtual Environment,1999中的A.F.Bobick等人;在“A System for Video Surveillance and Monitoring”,Proc.8thInternational Topical Meeting on Robotics and Remote Systems,1999中的R.T.Collins、A.J.Lipton和T.Kanade;在“Using adaptive tracking to classify andmonitor activities in a site”,Computer Society Conference on Computer Visionand Pattern Recognition中的W.E.L.Grimson、C.Stauffer、R.Romano和L.Lee;以及在《People tracking using a time-of-flight depth sensor》,IEEEInternational Conference on Video and Signal Based Surveillance,2006中的A.Bevilacqua、L.Di Stefano和P.Tazzari公开了基于以自顶向下的场景视野的对象跟踪方法。然而,作为结果,在被跟踪的对象上可获得的信息是有限的,特别当被跟踪的对象是人类用户时。
“Cluster tracking with time-of-flight cameras”,2008IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition Workshops中的Dan Witzner Hansen、Mads Syska Hansen、Martin Kirschmeyer、RasmusLarsen和Davide Silvestre公开了一种对象跟踪方法,其中也在单应平面(homographic plane)中(即,在“自顶向下”的视野中)跟踪对象。该方法使用期望最大化算法(Expectation Maximisation algorithm)。然而,如果所跟踪的对象是人类用户,则它也不足以适于姿势辨识(gesturerecognition)。
Leila Sabeti、Ehsan Parvizi和Q.M.Jonathan Wu在“Visual TrackingUsing Colour Cameras and Time-of-Flight Range Imaging Sensors”,Journal ofMultimedia,Vol.3,No.2,June 2008中也提出一种使用具有像素深度数据的3D视频序列的对象跟踪方法。然而,该方法使用基于蒙特卡罗的“粒子滤波器”跟踪方法,也需要相当大的数据处理资源。
US 2006/239558公开了一种产生场景的图像的三维成像系统。根据该场景的图像中的像素与该场景中哪个对象相关来标注该场景的图像中的像素,并且该场景的图像中的像素被分配有值。将具有相同标签的像素的组被分组以形成“团块(blobs)”,每一团块对应于不同的对象。一旦该团块被界定,将它们塑造或量化成各种形状的本原(primitive)(例如圆形或矩形等)或其它预定义的对象(例如,人、动物或车辆)。使用该场景中的像素的聚类(clustering)及它们的相关深度值,以依据其深度值来确定像素属于是否特定聚类。如果该像素与相邻像素处于相同的深度,则它被分配与该相邻像素所属的聚类的标签相同的标签。
US 6771818公开了一种用于通过选择性地将场景中的有差别的三维区域或“团块”进行聚类并且将该“团块”的聚类与用于对象辨识的模型进行比较来识别及定位该场景中感兴趣的人和对象的方法。产生感兴趣的场景的初始三维深度图像。三维图像像素的空间坐标在由该图像表示的三维体积内。通过使用该初始三维深度图像和实时(live)深度图像来处理从背景减除(background subtraction)过程所获得的工作图像来确定人或对象的身分或位置,从而在该实时深度图像中与该初始三维深度图像明显不同的任何像素变成包括若干有差别的三维区域或“团块”的该工作图像中的部分。处理该“团块”,以识别该团块中的每个所属于的人或对象。
发明内容
本发明的目的是提供一种用于跟踪在具有像素深度信息的帧序列中的对象的方法,该方法可靠地跟踪甚至部分被遮挡的对象并且同时提供可以被应用于姿势辨识的关于三维空间中的被跟踪对象形状的信息。
在实施例中,一种根据本发明的计算机实施的方法包括下列步骤:
-将包括像素深度信息的帧序列的每一个帧中的至少一些像素分组到数个区域中;
-将所述区域分组到相互连接的区域的聚类中;以及
-如果在二维投影中与另一个聚类相邻近的至少一个聚类具有高于所述其他聚类的深度值的深度值,则确定所述至少一个聚类属于被所述其他聚类部分遮挡的对象。
应该了解到“深度值”是垂直于所述二维投影的平面的深度值,与用于捕捉所述视频序列的成像设备的位置无关。该深度值是像素离该成像设备的距离。因此,一个聚类(或在该聚类中的像素)的深度值可以具有高于另一个聚类(或在该另一个聚类中的像素)的深度值的值,这是因为该聚类更远离该成像设备。
本发明的另外目的是将属于单个部分地被遮挡的对象的聚类进行结合。
为此目的,在所述二维投影中共同相邻于所述其他聚类并且具有高于所述其他聚类的深度值的深度值的两个聚类是否属于被所述其他聚类部分遮挡的单个对象,可以依据所述较大深度值是否位于彼此的预定范围Δd1之内来确定。
在所述二维投影中共同相邻于所述其他聚类并且具有大于所述其他聚类的深度值的深度值的两个聚类是否属于被所述其他聚类部分地遮挡的单个对象,还可以依据在所述二维投影中的至少一个轴上,那两个聚类中的每个与那两个聚类的另一个是否重叠超过至少最小长度来确定。
可以个别地或并发地应用这两个条件。可以应用这两个条件的每一个作为包含性条件(inclusive condition),从而如果满足该条件,则将两个聚类视为属于单个对象,但是如果不满足该条件,则这仍然不被排除。然而,可以应用每一个作为排他性条件(exclusive condition),这意味着如果它们不满足该条件,则将排除该聚类属于单个对象。在特定实施例中,甚至可以使用针对包含(inclusion)和排他(exclusion)的不同阈值,来分别包含地和排他地应用每一个条件。
因此,利用该跟踪方法,甚至当对象被另一对象部分地遮挡时,也可以持续跟踪该对象。将从遮挡的聚类后面探出的能够经由它们的相对位置而可靠地相互链接的那些区域识别为属于被部分遮挡的对象。而且,这是利用有限计算资源消耗来完成的,并且同时通过相互连接的区域的聚类来提供关于被跟踪对象的三维形状的有用信息。
相较下,US2006/239558根据场景中的像素的深度值将相同标签分配给这些像素。这意味着可能会错误地将属于在该场景中的不同的有差别对象的像素识别为一个对象或同一对象。
在US6771818中,将所识别的聚类与模型进行比较以确定像素是否属于可能被遮挡的对象。
有利地,使用向量量化算法,将像素分组到区域中。特别地,在所述向量量化算法中:
-在第一帧中,可以使用主从算法(leader-follower algorithm),将该像素分组到K个区域中;
-在后续帧中:
□使用被约束的K-均值算法(constrained K-means algorithm)以将像素分组到之前帧的区域中,其中使用距离约束来排除在这些区域中的任意的质心的预定距离Q之外的像素。
□使用主从算法,将任何剩余像素分组到新的区域中;
□如果最后,该之前帧的区域尚未被分配在该后续帧中的任何像素,则可以删除该区域,而将该数目K减1。
特别地,在所述主从算法中:
·如果像素在区域质心的所述距离Q之外,则建立新的区域,而将该数目K加1;以及
·如果像素是在区域质心的所述距离Q之内,则将它分配至对应的区域,以及相应地更新该质心的位置。
这样的主从算法提供像素到区域中的一致分布,同时维持该区域的大致恒定粒度,确保区域的连续更新,并且限制计算资源消耗。
有利地,如果是下列情况,则可以确定两个区域在三维空间中连接:
-在二维投影中,这两个区域之一中的至少一个像素与这两个区域之另一中的另一个像素是相邻的;以及
-这两个区域的相邻像素对中的深度的平均差小于所述预定距离Δd1
如果两个像素在所述二维投影中的至少一个方向上是处于预定距离之内,则可以将它们视为在二维投影中是相邻的。
利用这些标准,将用于对表示空间中的单个主体或数个连接主体的点的像素进行分组的数个区域分组到单一聚类中。
甚至更有利地,在后续帧中,如果没有出现在之前帧中的新区域在所述三维空间中直接或经由至少另一个区域连接到所述现有聚类的区域,则可以确定该新区域属于相互连接的区域中已经出现在所述之前帧中的现有聚类。因此,可以考虑在每个后续帧中新出现的任何候选区域来持续更新每个聚类的内容。
有利地,根据本发明的方法的优选实施例可以包括,在将所述像素分组到区域中之前的另一步骤:从所述序列中的每个帧,删除深度值没有与参考帧中的对应像素的深度值相差至少预定量Δd2的每个像素。因此,将前景对象与已存在于参考帧中的背景隔离,进一步减少该计算机实施的跟踪方法的计算需求。
有利地,所述帧序列可以是来自捕捉现实场景的成像设备的视频序列。因此,可以将根据本发明的该实施例的计算机实施的跟踪方法用于与例如用于在诸如视频游戏、模拟、虚拟环境、远程控制等的应用中输入指令或数据的计算机系统实时交互。
甚至更有利地,在本发明的该实施例中,在将像素分组到区域中的步骤之前,可以执行从与成像设备链接的坐标系统到与所述现实场景中的点链接的坐标系统的坐标变换。利用该步骤,可以将像素坐标变换到简化根据本发明的跟踪方法的后续步骤的另一坐标系统。
本发明的另外目的是使用一种用于跟踪在包括一序列连续帧的三维视频序列中的至少一个对象的方法来管理应用中的对象激活和/或去激活,每一个帧包括像素阵列,其中深度值与每一个像素相关联。
一种根据本发明的有利实施例的方法因此还可以包括下列步骤:针对所述序列的至少一个帧,如果在该帧中的对象满足第一组激活标准,则预激活该对象,以及如果预激活的对象在预定激活规则下满足第二组激活标准,则激活该预激活对象。该第一组激活标准因而充当第一绝对滤波器。预激活对象的后续激活不仅取决于每个预激活对象是否满足该第二组激活标准,而且也取决于该激活规则。
有利地,所述第一组激活标准和/或所述第二组激活标准可以包括下面标准中的至少一个:
-待激活或待去激活的对象的最大数目;
-对象位置;
-对象尺寸;
-对象运动;
-对象形状;
-对象颜色;
-该对象是不活动的期间之前连续帧的最大数目;或者
-用户选择。
有利地,所述激活规则可以是下列组的激活规则中的一个:
-强制激活规则,其激活满足第二组激活标准的所有预激活对象;
-排序激活规则,只有活动对象被去激活,其才激活满足第二组激活标准的对象;
-简单激活规则,其激活最满足第二组激活标准的对象;
-简单交换激活规则,如果去激活与对象相关联的另一活动对象,则其激活该对象;
-遮挡激活规则,如果对象被或已被另一对象遮挡,则其激活该对象;或者
-接触交换激活规则,如果对象接触另一活动对象,则其激活该对象。
这些激活标准和规则基于本发明的对象跟踪方法建立了大范围的交互可能性。
甚至更有利地,根据本发明的方法的实施例也可以包括下面步骤:针对所述序列的至少一个后续帧,如果之前激活的对象在预定去激活规则下满足一组去激活标准,则去激活该之前激活的对象。
所述组的去激活标准可以包括下面标准中的至少一个:
-待激活或待去激活的对象的最大数目;
-对象位置;
-对象形状;
-对象颜色;
-对象排序;
-该对象活动期间之前连续帧的最大和/或最小数目;或者
-用户选择。
所述去激活规则可以从下列中选择:
-强制去激活规则,其去激活满足所述组去激活标准的所有活动对象;
-排序去激活规则,只有不活动对象被激活,其才去激活满足所述组去激活标准的对象;
-简单去激活规则,其去激活最满足所述组去激活标准的对象;
-简单交换去激活规则,如果与对象相关联的另一不活动对象被激活,则其去激活该对象;或
-接触交换去激活规则,如果对象接触另一不活动的但预激活的对象,则其去激活该对象。
本发明还涉及一种计算机可读数据存储介质,该计算机可读数据存储介质包括用于执行根据本发明的任意一个实施例的方法的计算机可执行指令,本发明还涉及一种计算机系统,该计算机系统具有用于包括一序列连续帧的三维视频序列的输入端,每个帧包括像素阵列,其中深度值与每个像素相关联,并且该计算机系统被编程以便执行根据本发明的任意一个实施例的计算机实施的方法。
关于“计算机可读数据存储介质”,它表示包括数字数据的任何计算机可读载体,其包括但不限于固态存储器(例如,随机访问存储器、闪存或只读存储器),而且包括磁性数据存储介质(例如,硬盘驱动器或磁带)、光学数据存储介质(例如,光盘)等。
附图说明
在阅读下面的详细描述并且参考附图之后,本发明的这些及其它目的将变得更加明显。
图1示出具有站在3D成像设备之前的人类用户的房间;
图2示出如由该3D成像系统捕捉的,以分布于三维空间中的像素的形式的同一房间的三维图像数据;
图3示出所述图像数据中的修剪体积(clipped volume)的二维投影,并且其包括用于将背景消除后对应于人类用户的像素进行分组的相互连接的区域的聚类;
图4A、图4B和图4C示出如何在3D视频序列的连续帧中更新相互连接的区域的聚类;以及
图5示出了表示一个人类用户并且部分遮挡另一人类用户的相互连接的区域的聚类;
图6A、图6B和图6C示出可以如何使用位置标准以及简单激活规则和简单去激活规则来激活和去激活对象;
图7A和图7B示出可以如何使用位置标准和接触交换规则来激活第一对象并且去激活第二对象;以及
图8A、图8B和图8C示出如何使用位置标准以及简单激活规则和简单去激活规则来激活和去激活第一对象,以及如何使用位置标准和排序激活规则来激活第二对象。
虽然本发明容许各种修改及替代形式,但是已经通过附图中的示例的方式来示出本发明的特定实施例,并且本文将详细描述本发明的特定实施例。然而,应该理解的是,并非旨在将本发明限制在所公开的特定形式,而相反地,本发明旨在覆盖落入如在权利要求中表达的本发明的范围内的所有修改、等同和替代。
具体实施方式
图1中示出了根据本发明的计算机实施的对象跟踪方法和计算机系统的实施例的可能使用中的一种。在该应用中,该系统和方法被用于对感兴趣对象(在该情况中是人类用户1)的姿势的辨识,以便与产生被显示给该人类用户1的虚拟环境的计算机系统2交互。
体积辨识系统包括3D成像系统(在该特定实施例中是飞行时间(TOF)3D摄影机3)。该TOF 3D摄影机3连接到人类用户1与之交互的计算机系统2。在该实施例中,将该计算机系统2本身编程为与TOF 3D摄影机3合作来执行本发明的体积辨识方法。或者,可以将被编程为执行所述方法的独立数据处理设备连接在TOF 3D摄影机与计算机系统2之间,以便使人类用户能够与所述计算机系统2交互。
TOF 3D摄影机3捕捉包括人类用户1所站立的房间4的3D图像数据的连续帧,该3D图像数据包括2D像素阵列用于每一个像素的深度值,所述深度值对应于由该像素成像的点至该TOF 3D摄影机3的距离。因为在该2D像素阵列中的像素的垂直位置和水平位置本身对应于它们所表示的点相对于TOF 3D摄影机3的天顶角和方位角,所以可以如图2那样以与TOF 3D摄影机3的范围内的对象的可视点相对应的像素5的三维云来示出每一个帧。
这些连续帧形成被传送到计算机系统2的3D视频序列。在第一步骤中,所述计算机系统3中的数据处理器将视频序列中的每一个帧的像素5的三维云相对于该摄影机的像素位置变换成在该场景中所锚定的坐标系统6的坐标。该坐标系统6包括3个正交轴:横向轴X、深度轴Y及高度轴Z。之后,可以使用滤波器从该帧中消除无法获得足够信息的那些像素或可能由于传感器噪声所致的那些像素。
在后续步骤中,也可以通过将每个帧与仅具有背景的之前捕捉的参考帧进行比较,来消除每个帧中与场景背景对应的像素5。从图像中减去在所述深度轴Y上距离该参考帧中的对应像素不超过阈值距离Δd2的所有像素5。或者,然而,可以通过实时更新该参考背景,来动态地替代执行背景去除。
随后,为了减少数据处理需求,可以将得到的图像修剪至包括剩余像素5的较小体积7。
然后,通过数据处理器将那些剩余像素5分组到计算机存储器中的多个区域Ri,其中i=1、...、K。如下面那样使用向量量化算法来有利地分组像素:
在视频序列的第一帧中,使用主从算法将像素分组到K个区域中。在该算法中,如果像素是在区域质心的距离Q之外,则建立新区域,将数目K加1;并且,如果像素是在区域质心的距离Q之内,则将它分配给对应的区域,并且相应地更新质心的位置。因此,从该第一帧中之第一像素开始,仍未建立区域(K=0),所以建立第一区域,设定K等于1,并且该第一区域的质心的位置将是第一像素的位置。对于下一像素,如果它是处于第一像素的所述距离Q之内,则将它并入第一区域中,并且将改变第一区域的质心的位置。然而,如果它超出所述距离Q,则将建立新区域并且将设定K等于2。
在每个后续帧中,首先使用被约束的K-均值算法以分组像素中的至少一些像素。该K-均值算法是迭代算法,其中在定义了K个区域(在该情况下是对应之前帧已确定的那些区域)的质心的初始位置Ci之后,为了引入时间相干性(temporal coherence)的程度,首先将一组N个像素的每一个像素j与所述K个区域中由下面等式所指定的区域Rs相关联:
s = arg min i = 1 , . . . , K ( | | P j - C i | | )
其中Pj是像素j在上述坐标系统6中的位置。在该特殊的被约束的K-均值算法中,在离质心的所述预定距离Q之外的那些像素被剩下未被分配。
在已经将每一个像素j=1,…,N分配至所述K个区域中的一个后,通过计算被分配到每一个区域的像素的质量中心的位置来更新那些K个区域的质心的位置Ci
C i = Σ j ∈ R i P j n
其中n是被分配至区域Ri的像素的数目。
然后,可以反复地执行这两个步骤,直到将像素的稳定分配收敛至K个区域中为止。
·然后,使用上述相同的主从算法,可以将剩下未分配的像素分组到新区域中,其中如果像素是超出区域质心的距离Q之外,则建立新区域,将该数目K加1;以及如果像素是在区域质心的距离Q内,则它被分配到对应的区域,并且相应地更新质心的位置。
最后,如果K个区域中的区域被剩下是空的,在该帧中不具有被分配给它的任何像素,则删除该区域Ri,将数目K减1。
在图3中示出在一帧中得到的区域Ri的组。
用于每一个帧的下一步骤包括区域邻接图(RAG)的建立,以及在计算机存储器中将区域Ri分组到相互连接的区域的聚类B中。如果是下面情况,则数据处理器确定两个区域Ra、Rb(其中a和b是在0与K之间的两个不同数目)在三维空间中是连接的:
-区域Ra中的至少一个像素与区域Rb中的另一像素在X-Z平面上的二维投影中是相邻的;以及
-这两个区域Ra、Rb的相邻像素对在Y轴上的深度的平均差小于预定距离Δd1
如果两个像素中之一在至少X轴或Z轴上是另一像素的下一个、第二下一个或第三下一个像素,则将这两个像素视为在二维投影中是相邻的。
当两个区域Ra、Rb具有在X-Z平面上的投影中相邻的像素,但是这些相邻像素对的深度的平均差超过所述预定距离Δd1时,则可以将该区域Ra、Rb标记为可能是连接的。在该情况下,是否将它们分组到单个聚类B0中作为相互连接的区域可以取决于一组附加的标准。
在第一帧中建立若干聚类B0,每一个聚类并入一组相互连接的区域。对于后续帧,如果新区域Rc直接或经由至少另一区域Rd连接到现有聚类B0的区域,则该新区域Rc被并入该现有聚类B0中。这是通过执行下面算法的数据处理器来确定的:
对于每个区域Ri
-如果它已出现在之前的帧中,并且因而与现有聚类B0相关联,则考虑时间相干性,将Ri至它所属的聚类的距离的指示符“距离(Ri)”设定为零,将指示器“对象(Ri)”设定为“B0”,以及将Ri储存在通过“距离(Ri)”的递增值来分类的列表H中。
-如果没有,则将“距离(Ri)”设定为“无穷大(INFINITE)”,并且将“对象(Ri)”设定为“空(NULL)”。
然后,只要列表H不是空的,则重复:
-从列表H提取具有最低值的指示符“距离(Rh)”的区域Rh
-对于邻近区域Rh的每一个区域Rv
·计算d=距离(Rh)+距离RAG(Rh,Rv),其中如果Rh与Rv是连接的,则距离RAG(Rh,Rv)=0,以及如果Rh与Rv不是连接的,则距离RAG(Rh,Rv)=无穷大;以及
·如果d<距离(Rv),则:
○将“距离(Rv)”的值设定为d的值;
○将“对象(Rv)”的值设定为“对象(Rh)”的值;以及
○如果区域Rv不在列表H中,则将它插入H中;
○如果区域Rv已在列表H中,则从H提取它。
在因此已经将能够连接至现有聚类的所有区域都被并入它们之后,针对连接检验所有剩余的区域,并且如果需要,建立合并这样的区域的附加聚类。图4A、图4B和图4C示出了在两个连续帧之间的该转换。
在图4A所示的第一帧中,存在两个聚类B1和B2。B1包括相互连接的区域R1、R2、R3、R4、R5和R6,而B2包括相互连接的区域R7、R8、R9、R10和R11。在图4B所示的下一帧中,仍然存在B1和B2,但是R7已经不见了。另一方面,出现新的区域R12、R13、R14、R15、R16和R17。R12连接到聚类B1的区域R6,R13连接到聚类B2的区域R11,并且R14连接到R13。R15、R16和R17是相互连接的,但是并不连接到任何其它区域或聚类。因此,如可以从图4C所看到的,R12将被并入聚类B1,R13和R14将被并入聚类B2,并且R15、R16和R17将形成新的聚类B3。
在下一步骤中,创建聚类关系图(CRG)。在该CRG中,利用被标记“2D连接”的第一类型的链接来链接在X-Z平面上的二维投影中的相邻的聚类的对(即,其每个包括具有在X-Z平面上的二维投影中与另一个聚类的区域中的至少一个像素相邻的至少一个像素的区域)。然后,利用被标记“可3D连接”的第二类型的链接来链接如下的聚类对:其中,两个聚类具有到共同的相邻聚类的“2D连接”链接,但是具有高于该共同邻居的深度值的深度值,并且在深度轴相互处于预定距离Δd1之内。
由“可3D连接”链接的聚类可能属于被它们的共同邻居所表示的另一对象部分地遮挡的对象。为确定它们是否真正因为属于单个对象而应该被相互关联,然后检验它们是否在所述二维投影中是“可堆叠的”,即,它们是否在所述2D投影的至少一个轴上相互重叠有至少最小归一化长度omin。该标准化重叠长度的值o=O/L,其中O是该轴上的绝对重叠长度,并且L是该轴上的两个“可3D连接”聚类中较短那个的长度。
图5示出一个示例,其中一帧示出一组表示两个对象(名为,第一人类用户U1及被该第一人类用户U1部分遮挡的第二人类用户U2)的聚类B1、B2、B3、B4和B5。将容易理解的是,该第一人类用户U1在该第二人类用户U2之前的存在,有效地将该第二人类用户U2划分为聚类B2、B3、B4和B5。因为聚类B2、B3、B4和B5在X-Z平面上的二维投影中都与聚类B1相邻,并且它们在Y轴上的平均深度比B1的该深度更大超过最小距离,所以可以通过“2D连接”链接7将它们与B1链接。因为它们在深度轴Y上彼此也处于预定范围内,所以可以利用“可3D连接”链接8将它们彼此链接。
在下一步骤中,因此检验通过该“可3D连接”类型的链接8所链接的那些聚类B2、B3、B4和B5是否在所述二维投影的至少一个轴上也彼此重叠有至少最小归一化长度omin。在所示出的示例中,在X轴上,B3与B2重叠有足够的归一化长度oX(32)>omin,并且在Z轴上,B4和B5也分别与B2和B3重叠有足够的归一化长度oZ(4,2)>omin及oZ(5,3)>omin
归一化重叠长度oX(3,2)=OX(3,2)/LX3,其中OX(3,2)是B3与B2在X轴上的重叠,以及LX3是B3在X轴上的长度。该归一化重叠长度oZ(4,2)=OZ(4,2)/LZ4,其中OZ(4,2)是在Z轴上B4与B2的重叠,以及LZ4是B4在Z轴上的长度。最后,该归一化重叠长度oZ(5,3)=OZ(5,3)/LZ5,其中OZ(5,3)是在Z轴上B5与B3的重迭,以及LZ5的B5在Z轴上的长度。
因此可以在计算机存储器中将聚类B2、B3、B4及B5分配给被包括聚类B1的另一对象U1所部分遮挡的单个对象U2
虽然在该示出的实施例中,组合使用这些“可3D连接”和“可堆叠”测试,其中排除了:如果聚类不满足这两个条件,则它们属于单个对象。在替代实施例中,可以相互独立使用或相互并行使用这两个条件。可以应用这两个条件中的每一个作为包含性条件,从而如果该条件被满足,则将两个聚类认为属于单个对象,但是如果不满足该条件,则这仍然不被排除。甚至可以使用针对包含和排他的不同阈值,来分别包含性和排他性地应用每个条件。
对于后续帧,数据处理器将建立新CRG并且首先使用上述测试来检验任何新聚类是否可以被分配至现有的对象。然后,它将使用相同的测试来检验任何剩余新聚类是否可以被分组到新对象。
因此,甚至当多个对象中的一个被另一对象部分地遮挡的时候,也可以贯穿整个帧序列跟踪该多个对象。这样的对象可以是固定的或移动的。当该对象跟踪方法被用于与计算机应用(例如,视频游戏、模拟或虚拟现实应用)交互时,可以根据各个组的激活/去激活标准和激活/去激活规则来激活和/或去激活被跟踪对象中的每一个。
在本发明的特定实施例中,一种用于在一序列的帧中跟踪至少一个对象的方法(每一个帧包括像素阵列,其中深度值与每一个像素相关联)还包括针对至少一个帧的以下步骤:如果在所述帧中的对象满足第一组的激活标准,则预激活该对象,以及如果预激活的对象在预定激活规则下满足第二组激活标准,则激活该预激活的对象。
优选地,该方法也可以包括针对所述序列的至少一个后续帧的下列步骤:如果之前激活的对象在预定去激活规则下满足一组去激活标准,则去激活该之前激活的对象。
第一组激活标准可以包括下面中的至少一个:
对象位置:关于该要求,如果被跟踪对象相对于移动参照(例如,另一被跟踪对象)和/或固定参照处于某一相对位置范围内(或甚至与该移动参照和/或该固定参考接触),则将因此预激活该被跟踪对象。
对象尺寸:关于该要求,如果被跟踪对象在一维、二维或三维上至少具有预定最小尺寸和/或至多具有预定最大尺寸,则将因此预激活该被跟踪的对象。
对象运动:关于该要求,如果被跟踪对象相对于该序列中的至少一个之前帧至少呈现预定最小运动及/或至多呈现预定最大运动,则将因此预激活该被跟踪对象。
对象形状:关于该要求,如果可以使被跟踪对象的形状与预定图案(例如,表示人体的图案)相匹配,则将因此预激活该被跟踪对象。
对象颜色:关于该要求,如果被跟踪对象包括具有处于预定色彩范围内的色彩值的一个或多个像素,则将因此预激活该被跟踪对象。
对象持续性:关于该要求,如果被跟踪对象已经被跟踪为活动或不活动的持续至少最小数目连续之前帧和/或至多最大数目的连续之前帧,则将因此预激活该被跟踪对象。
用户选择:关于该要求,如果通过明确的用户选择(例如,“使对象可见”命令)事先标记被跟踪对象,则将因此预激活该被跟踪对象。
活动对象的最大数目:关于该要求,如果活动对象的数目未超过预定最大值,则将因此激活被跟踪对象。
结合激活规则使用该第二组的激活标准。该激活规则可以例如是:强制激活规则,该强制激活规则激活满足第二组激活标准的所有预激活对象;排序激活规则,只有在活动对象被去激活时,排序激活规则才激活满足所述第二组激活标准的对象;简单激活规则,其激活最满足所述第二组激活标准的一个或多个对象;简单交换激活规则,如果与一对象相关联的另一活动对象被去激活,则简单交换激活规则激活该对象;遮挡激活规则,如果一对象被或已被另一对象遮挡,则遮挡激活规则激活该对象;或者接触交换激活规则,如果一对象接触另一活动对象,则接触交换激活规则激活该对象。
该组去激活标准可以包括类同于第二组激活标准的标准。它也可以包括对象排序标准,如果活动对象的排序小于最小值,则其将允许该活动对象的去激活。可以例如通过该组活动对象被激活的顺序来确定对象排序。
去激活规则可以是例如:强制去激活规则,其去激活所有满足所述组去激活标准的活动对象;排序去激活规则,只有在不活动对象被激活时,排序去激活规则才去激活满足所述组去激活标准的对象;简单去激活规则,其去激活最满足所述组去激活标准的对象;简单交换去激活规则,如果与一对象相关联的另一不活动对象被激活,则简单交换去激活规则去激活该对象;或接触交换去激活规则,如果一对象接触另一不活动的但被预激活的对象,则接触交换去激活规则去激活该对象。
因此,取决于激活和去激活标准及规则的组合,可获得各种方案。
例如,在图6A中,对象U1在预激活状态中已进入以固定参照11为中心的圆圈10,该对象满足针对激活的位置标准。因而根据简单激活规则来激活对象U1。在图6B中,对象U1已离开圆圈10,但是因为针对去激活的位置标准是超出较大圆圈12的位置,所以它保持活动。只有当如图6C所示的,对象U1离开较大圆圈12时,可以根据另一简单去激活规则来去激活它。
在图7A中,显示两个对象U1和U2没有接触。在该情况下,这两个对象U1和U2对应于各自的用户,用户1和用户2。第一对象U1是活动的,并且第二对象U2是处于预激活状态中。因为第一对象U1满足针对去激活的位置标准,其与不活动的但预激活的对象接触,所以可以根据接触交换去激活规则来去激活它。另一方面,因为第二对象U2满足针对激活的位置标准,其与活动对象接触,所以将根据接触交换激活规则来激活它。得到的状态交换在图7B中显示。
在图7B中,根据接触交换激活规则,当对象U2与对象U1接触时,对象U2变得被激活(因为它是不活动,但是预激活的),并且对象U1变得被去激活,因为它现在与被激活对象U2接触。
在图8A中,显示第一对象U1在预激活状态中已进入以固定参照11为中心的圆圈10,其满足针对激活的位置标准。因而根据简单激活规则来激活该第一对象U1。不在圆圈10中的第二对象U2保持不活动。在图8B中,第一对象U1现在在圆圈10之外。然而,因为针对去激活的位置标准是超出较大圆圈12的位置,所以它保持活动。虽然该第二对象U2现在是预激活的并且在圆圈10内,但是根据排序激活规则,在第一对象U1保持活动的情况下它不能被激活的。只有当如图8C所示,第一对象U1在离开较大圆圈12后被去激活时,可以根据该排序激活规则来激活第二对象U2
将认识到,如果激活/去激活规则允许,则在任何时候可以激活多于一个的对象。这将使得两个或更多的用户能够在根据本发明的三维成像系统所观看的相同三维空间中交互。
虽然已参考特定示例性实施例描述了本发明,但是将显然的是,可以对这些实施例做出各种修改和改变而不脱离如权利要求陈述的本发明的较宽范围。例如,可以独立于如何或是否确定了数个聚类属于单个被部分遮挡的对象之外,来执行预先预激活、激活和/或去激活对象的步骤。相应地,将认为说明书和附图是例示性意义而不是限制性意义。

Claims (32)

1.一种用于跟踪一序列的帧中的至少一个对象(U1、U2)的计算机实施的方法,每一个帧包括像素阵列,其中,深度测量值与每一个像素(5)相关联,所述方法包括以下步骤:
a)将每一个帧的所述像素(5)中的至少一些像素分组到数个区域(R1、...、R17)中;以及
b)将所述区域(R1、...、R17)分组到相互连接的区域的聚类(B1、...、B5)中,所述相互连接的区域的聚类(B1、...、B5)对应于所述至少一个对象(U1、U2);
其特征在于,所述方法还包括以下步骤:
c)如果具有至少第一深度值并且在二维投影中与具有另一个深度值的另一个聚类(B1)相邻的至少一个聚类(B2、...、B5)的所述至少第一深度值大于所述另一个聚类(B1)的所述另一个深度值,则确定所述至少一个聚类(B2、...、B5)是否属于被所述另一个聚类(B1)部分遮挡的第一对象(U2),所述另一个聚类(B1)对应于另一个对象(U1);以及
d)根据在所述二维投影中共同与所述另一个聚类(B1)相邻的两个聚类(B2、...、B5)的所述第一深度值处于另一个的预定范围Δd1之内,来确定所述两个聚类(B2、...、B5)是否属于所述第一对象(U2)。
2.根据权利要求1所述的计算机实施的方法,其中,步骤d)还包括确定在所述二维投影的至少一个轴上,所述两个聚类(B2、...、B5)中的每一个是否与所述两个聚类(B2、...、B5)中的所述另一个重叠。
3.根据权利要求1或2所述的计算机实施的方法,其中,利用使用向量量化算法的数据处理器将所述像素(5)中的至少一些像素分组到区域(R1、...、R17)中。
4.根据权利要求3所述的计算机实施的方法,其中,在所述向量量化算法中:
–在第一帧中,使用主从算法将所述像素(5)分组到K个区域(R1、...、R11)中;
–在后续帧中:
·使用受约束的K-均值算法,将像素(5)分组到之前帧的所述K个区域(R1、...、R11)中,其中,使用距离约束来排除超出区域质心(C1、...、C11)的预定距离Q之外的像素(5);
·使用主从算法,将任何剩余的像素(5)分组到新的区域(R12、...、R17)中;以及
·如果最终,所述之前帧的区域(R7)仍未被分配有该后续帧中的任何像素(5),则删除该区域(R7),将数字K减1。
5.根据权利要求4所述的计算机实施的方法,其中,在所述主从算法中,
·如果像素(5)超出区域质心(C1、...、C11)的所述距离Q之外,则建立新区域(R12、...、R17),将所述数字K加1;以及
·如果像素(5)是在区域质心的所述距离Q内,则将它分配至对应的区域(R1、...、R11),并且相应地更新所述质心(C1、...、C11)的位置。
6.根据权利要求1或2所述的计算机实施的方法,其中,如果是以下情况,则确定两个区域(R1、...、R17)在三维空间中是连接的:
–那两个区域(R1、...、R17)之一中的至少一个像素(5)与那两个区域(R1、...、R17)之另一个中的另一个像素(5)在二维投影中是相邻的;以及
–这两个区域(R1、...、R17)的相邻像素(5)对中的深度的平均差低于所述预定范围Δd1
7.根据权利要求3所述的计算机实施的方法,其中,在后续帧中,如果在之前帧中未出现的新区域(R12、R13、R14)在三维空间中直接或经由至少另一个区域(R13)连接至已出现在所述之前帧中的相互连接的区域的现有聚类的区域(R6、R11),则确定所述新区域(R12、R13、R14)属于所述现有聚类。
8.根据权利要求1或2所述的计算机实施方法,其中,在将所述像素(5)分组到区域(R1、...、R17)中之前,所述方法包括另一步骤:从所述序列的每一个帧中,删除深度值没有与参考帧中的对应像素(5)的深度值相差至少预定量Δd2的每一个像素(5)。
9.根据权利要求1或2所述的计算机实施的方法,其中,所述序列是来自捕捉现实场景的3D成像设备的视频序列。
10.根据权利要求9所述的计算机实施的方法,其中,在将所述像素分组到区域(R1、...、R17)中的步骤之前,执行从与所述成像设备链接的坐标系统至与所述现实场景中的点链接的另一坐标系统的坐标变换。
11.根据权利要求1或2所述的计算机实施的方法,还包括针对所述序列的至少一个帧的以下步骤:
–如果所述帧中的对象(U1、U2)满足第一组激活标准,则预激活所述帧中的对象(U1、U2);以及
–如果预激活对象(U1、U2)在预定激活规则下满足第二组激活标准,则激活所述预激活对象(U1、U2)。
12.根据权利要求11所述的计算机实施的方法,其中,所述第一组激活标准和/或所述第二组激活标准包括以下标准中的至少一个:
–待激活的对象的最大数目;
–对象位置;
–对象尺寸;
–对象运动;
–对象形状;
–对象颜色;
–所述对象已经是活动的或不活动的期间连续之前帧的最小数目和/或最大数目;或者
–用户选择。
13.根据权利要求11所述的计算机实施的方法,其中,所述激活规则是以下组的激活规则中的一个:
–强制激活规则,其激活满足所述第二组激活标准的所有预激活对象;
–排序激活规则,只有在活动对象被去激活时,所述排序激活规则激活满足所述第二组激活标准的对象;
–简单激活规则,其激活最满足所述第二组激活标准的一个或多个对象;
–简单交换激活规则,如果与对象相关联的另一活动对象被去激活,则所述简单交换激活规则激活所述对象;
–遮挡激活规则,如果对象被或已被另一对象遮挡,则所述遮挡激活规则激活所述对象;或者
–接触交换激活规则,如果对象接触另一活动对象,则所述接触交换激活规则激活所述对象。
14.根据权利要求11所述的计算机实施的方法,还包括针对所述序列的至少一个后续帧的以下步骤:如果之前被激活的对象在预定去激活规则下满足一组去激活标准,则去激活所述之前被激活的对象。
15.根据权利要求14所述的计算机实施的方法,其中,所述组去激活标准包括以下标准中的至少一个:
–待激活或待去激活的对象的最大数目;
–对象位置;
–对象尺寸;
–对象形状;
–对象颜色;
–对象排序;
–所述对象已经是活动的期间连续之前帧的最大数目和/或最小数目;或者
–用户选择。
16.根据权利要求15所述的计算机实施的方法,其中,所述去激活规则是以下组的去激活规则中的一个:
–强制去激活规则,其去激活满足所述组去激活标准的所有活动对象;
–排序去激活规则,只有在不活动对象被激活时,所述排序去激活规则去激活满足所述组去激活标准的对象;
–简单去激活规则,其去激活最满足所述组去激活标准的对象;
–简单交换去激活规则,如果与对象相关联的另一不活动对象被激活,则所述简单交换去激活规则去激活所述对象;或
–接触交换去激活规则,如果对象接触另一不活动但预激活的对象,则所述接触交换去激活规则去激活所述对象。
17.一种用于跟踪一序列的帧中的至少一个对象(U1、U2)的计算机实施的装置,每一个帧包括像素阵列,其中,深度测量值与每一个像素(5)相关联,所述装置包括:
用于将每一个帧的所述像素(5)中的至少一些像素分组到数个区域(R1、...、R17)中的单元;以及
用于将所述区域(R1、...、R17)分组到相互连接的区域的聚类(B1、...、B5)中,所述相互连接的区域的聚类(B1、...、B5)对应于所述至少一个对象(U1、U2)的单元;
其特征在于,所述装置还包括:
用于如果具有至少第一深度值并且在二维投影中与具有另一个深度值的另一个聚类(B1)相邻的至少一个聚类(B2、...、B5)的所述至少第一深度值大于所述另一个聚类(B1)的所述另一个深度值,则确定所述至少一个聚类(B2、...、B5)是否属于被所述另一个聚类(B1)部分遮挡的第一对象(U2),所述另一个聚类(B1)对应于另一个对象(U1)的单元;以及
用于根据在所述二维投影中共同与所述另一个聚类(B1)相邻的两个聚类(B2、...、B5)的所述第一深度值处于另一个的预定范围Δd1之内,来确定所述两个聚类(B2、...、B5)是否属于所述第一对象(U2)的单元。
18.根据权利要求17所述的计算机实施的装置,其中,用于确定所述两个聚类(B2、...、B5)是否属于所述第一对象(U2)的单元还包括用于确定在所述二维投影的至少一个轴上,所述两个聚类(B2、...、B5)中的每一个是否与所述两个聚类(B2、...、B5)中的所述另一个重叠的单元。
19.根据权利要求17或18所述的计算机实施的装置,其中,利用使用向量量化算法的数据处理器将所述像素(5)中的至少一些像素分组到区域(R1、...、R17)中。
20.根据权利要求19所述的计算机实施的装置,其中,在所述向量量化算法中:
–在第一帧中,使用主从算法将所述像素(5)分组到K个区域(R1、...、R11)中;
–在后续帧中:
·使用受约束的K-均值算法,将像素(5)分组到之前帧的所述K个区域(R1、...、R11)中,其中,使用距离约束来排除超出区域质心(C1、...、C11)的预定距离Q之外的像素(5);
·使用主从算法,将任何剩余的像素(5)分组到新的区域(R12、...、R17)中;以及
·如果最终,所述之前帧的区域(R7)仍未被分配有该后续帧中的任何像素(5),则删除该区域(R7),将数字K减1。
21.根据权利要求20所述的计算机实施的装置,其中,在所述主从算法中,
·如果像素(5)超出区域质心(C1、...、C11)的所述距离Q之外,则建立新区域(R12、...、R17),将所述数字K加1;以及
·如果像素(5)是在区域质心的所述距离Q内,则将它分配至对应的区域(R1、...、R11),并且相应地更新所述质心(C1、...、C11)的位置。
22.根据权利要求17或18所述的计算机实施的装置,其中,如果是以下情况,则确定两个区域(R1、...、R17)在三维空间中是连接的:
–那两个区域(R1、...、R17)之一中的至少一个像素(5)与那两个区域(R1、...、R17)之另一个中的另一个像素(5)在二维投影中是相邻的;以及
–这两个区域(R1、...、R17)的相邻像素(5)对中的深度的平均差低于所述预定范围Δd1
23.根据权利要求19所述的计算机实施的装置,其中,在后续帧中,如果在之前帧中未出现的新区域(R12、R13、R14)在三维空间中直接或经由至少另一个区域(R13)连接至已出现在所述之前帧中的相互连接的区域的现有聚类的区域(R6、R11),则确定所述新区域(R12、R13、R14)属于所述现有聚类。
24.根据权利要求17或18所述的计算机实施的装置,其中,在将所述像素(5)分组到区域(R1、...、R17)中之前,从所述序列的每一个帧中,删除深度值没有与参考帧中的对应像素(5)的深度值相差至少预定量Δd2的每一个像素(5)。
25.根据权利要求17或18所述的计算机实施的装置,其中,所述序列是来自捕捉现实场景的3D成像设备的视频序列。
26.根据权利要求25所述的计算机实施的装置,其中,在将所述像素分组到区域(R1、...、R17)中之前,执行从与所述成像设备链接的坐标系统至与所述现实场景中的点链接的另一坐标系统的坐标变换。
27.根据权利要求17或18所述的计算机实施的装置,还包括针对所述序列的至少一个帧的:
–用于如果所述帧中的对象(U1、U2)满足第一组激活标准,则预激活所述帧中的对象(U1、U2)的单元;以及
–用于如果预激活对象(U1、U2)在预定激活规则下满足第二组激活标准,则激活所述预激活对象(U1、U2)的单元。
28.根据权利要求27所述的计算机实施的装置,其中,所述第一组激活标准和/或所述第二组激活标准包括以下标准中的至少一个:
–待激活的对象的最大数目;
–对象位置;
–对象尺寸;
–对象运动;
–对象形状;
–对象颜色;
–所述对象已经是活动的或不活动的期间连续之前帧的最小数目和/或最大数目;或者
–用户选择。
29.根据权利要求27所述的计算机实施的装置,其中,所述激活规则是以下组的激活规则中的一个:
–强制激活规则,其激活满足所述第二组激活标准的所有预激活对象;
–排序激活规则,只有在活动对象被去激活时,所述排序激活规则激活满足所述第二组激活标准的对象;
–简单激活规则,其激活最满足所述第二组激活标准的一个或多个对象;
–简单交换激活规则,如果与对象相关联的另一活动对象被去激活,则所述简单交换激活规则激活所述对象;
–遮挡激活规则,如果对象被或已被另一对象遮挡,则所述遮挡激活规则激活所述对象;或者
–接触交换激活规则,如果对象接触另一活动对象,则所述接触交换激活规则激活所述对象。
30.根据权利要求27所述的计算机实施的装置,还包括针对所述序列的至少一个后续帧的用于如果之前被激活的对象在预定去激活规则下满足一组去激活标准则去激活所述之前被激活的对象的单元。
31.根据权利要求30所述的计算机实施的装置,其中,所述组去激活标准包括以下标准中的至少一个:
–待激活或待去激活的对象的最大数目;
–对象位置;
–对象尺寸;
–对象形状;
–对象颜色;
–对象排序;
–所述对象已经是活动的期间连续之前帧的最大数目和/或最小数目;或者
–用户选择。
32.根据权利要求31所述的计算机实施的装置,其中,所述去激活规则是以下组的去激活规则中的一个:
–强制去激活规则,其去激活满足所述组去激活标准的所有活动对象;
–排序去激活规则,只有在不活动对象被激活时,所述排序去激活规则去激活满足所述组去激活标准的对象;
–简单去激活规则,其去激活最满足所述组去激活标准的对象;
–简单交换去激活规则,如果与对象相关联的另一不活动对象被激活,则所述简单交换去激活规则去激活所述对象;或
–接触交换去激活规则,如果对象接触另一不活动但预激活的对象,则所述接触交换去激活规则去激活所述对象。
CN201080059711.6A 2009-12-28 2010-12-28 跟踪方法 Active CN102812491B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09180785.9 2009-12-28
EP09180785A EP2357608B1 (en) 2009-12-28 2009-12-28 Tracking method
PCT/EP2010/070821 WO2011080282A1 (en) 2009-12-28 2010-12-28 Tracking method

Publications (2)

Publication Number Publication Date
CN102812491A CN102812491A (zh) 2012-12-05
CN102812491B true CN102812491B (zh) 2015-07-08

Family

ID=42124238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080059711.6A Active CN102812491B (zh) 2009-12-28 2010-12-28 跟踪方法

Country Status (13)

Country Link
US (1) US8891825B2 (zh)
EP (1) EP2357608B1 (zh)
JP (1) JP5462956B2 (zh)
KR (1) KR101415479B1 (zh)
CN (1) CN102812491B (zh)
AU (1) AU2010338192B2 (zh)
BR (1) BR112012015971A2 (zh)
CA (1) CA2784558C (zh)
MX (1) MX2012007595A (zh)
SG (1) SG181596A1 (zh)
TW (1) TWI520102B (zh)
WO (1) WO2011080282A1 (zh)
ZA (1) ZA201204260B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8705860B2 (en) * 2011-03-14 2014-04-22 Microsoft Corporation Grouping variables for fast image labeling
US9072929B1 (en) * 2011-12-01 2015-07-07 Nebraska Global Investment Company, LLC Image capture system
US9111351B2 (en) * 2011-12-15 2015-08-18 Sony Corporation Minimizing drift using depth camera images
KR101909544B1 (ko) * 2012-01-19 2018-10-18 삼성전자주식회사 평면 검출 장치 및 방법
WO2013172491A1 (ko) * 2012-05-16 2013-11-21 전자부품연구원 깊이 정보를 이용한 물체 인식 방법 및 장치
TW201349027A (zh) * 2012-05-25 2013-12-01 Univ Ming Chuan 遙控辨識方法及其裝置
EP2674913B1 (en) 2012-06-14 2014-07-23 Softkinetic Software Three-dimensional object modelling fitting & tracking.
US20140210950A1 (en) * 2013-01-31 2014-07-31 Qualcomm Incorporated Systems and methods for multiview metrology
US9052746B2 (en) * 2013-02-15 2015-06-09 Microsoft Technology Licensing, Llc User center-of-mass and mass distribution extraction using depth images
EP2790152B1 (en) 2013-04-12 2015-12-02 Alcatel Lucent Method and device for automatic detection and tracking of one or multiple objects of interest in a video
KR101439037B1 (ko) * 2013-06-25 2014-09-15 주식회사 에스원 영상에서 객체를 추적하는 방법 및 장치
US9436872B2 (en) 2014-02-24 2016-09-06 Hong Kong Applied Science and Technology Research Institute Company Limited System and method for detecting and tracking multiple parts of an object
US9836635B2 (en) * 2014-10-09 2017-12-05 Cognex Corporation Systems and methods for tracking optical codes
US9361524B2 (en) 2014-10-20 2016-06-07 King Abdullah University Of Science & Technology System and method for crowd counting and tracking
CN106295287B (zh) * 2015-06-10 2019-04-09 阿里巴巴集团控股有限公司 活体检测方法和装置以及身份认证方法和装置
US9726501B2 (en) * 2015-08-06 2017-08-08 Gabriel Oren Benel Path guidance system for the visually impaired
US9922244B2 (en) * 2015-09-03 2018-03-20 Gestigon Gmbh Fast and robust identification of extremities of an object within a scene
US10614578B2 (en) * 2016-03-23 2020-04-07 Akcelita, LLC System and method for tracking people, animals and objects using a volumetric representation and artificial intelligence
JP7122815B2 (ja) * 2017-11-15 2022-08-22 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
KR102569437B1 (ko) * 2018-01-08 2023-08-24 현대모비스 주식회사 3차원 영상정보 기반 객체 추적 장치 및 방법
KR102424664B1 (ko) * 2018-01-08 2022-07-25 현대모비스 주식회사 3차원 영상정보 기반 객체 추적 장치 및 방법
KR101936673B1 (ko) 2018-07-09 2019-04-03 (주) 대현목재 클립 유니트로 결합되는 데크
US10970519B2 (en) * 2019-04-16 2021-04-06 At&T Intellectual Property I, L.P. Validating objects in volumetric video presentations
US11012675B2 (en) 2019-04-16 2021-05-18 At&T Intellectual Property I, L.P. Automatic selection of viewpoint characteristics and trajectories in volumetric video presentations
US11153492B2 (en) 2019-04-16 2021-10-19 At&T Intellectual Property I, L.P. Selecting spectator viewpoints in volumetric video presentations of live events
CN112493928B (zh) * 2020-11-26 2021-12-17 广东盈峰智能环卫科技有限公司 一种机器人智能自跟随方法、装置、介质、电子设备
CN112666973B (zh) * 2020-12-15 2022-04-29 四川长虹电器股份有限公司 基于tof的无人机群在飞行中队形保持和变队的方法
KR102451797B1 (ko) * 2021-06-01 2022-10-12 씨드로닉스(주) 타겟 객체를 모델링하는 모델링 방법, 모델링 장치 및 모델링 시스템
CN116935074B (zh) * 2023-07-25 2024-03-26 苏州驾驶宝智能科技有限公司 基于深度亲和网络自适应关联的多目标跟踪方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060239558A1 (en) * 2005-02-08 2006-10-26 Canesta, Inc. Method and system to segment depth images and to detect shapes in three-dimensionally acquired data
WO2008128568A1 (en) * 2007-04-20 2008-10-30 Softkinetic S.A. Volume recognition method and system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4118452B2 (ja) 1999-06-16 2008-07-16 本田技研工業株式会社 物体認識装置
US6771818B1 (en) * 2000-04-04 2004-08-03 Microsoft Corporation System and process for identifying and locating people or objects in a scene by selectively clustering three-dimensional regions
JP2008165595A (ja) 2006-12-28 2008-07-17 Sumitomo Electric Ind Ltd 障害物検出方法、障害物検出装置、障害物検出システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060239558A1 (en) * 2005-02-08 2006-10-26 Canesta, Inc. Method and system to segment depth images and to detect shapes in three-dimensionally acquired data
WO2008128568A1 (en) * 2007-04-20 2008-10-30 Softkinetic S.A. Volume recognition method and system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Depth assisted visual tracking;Ma Y.等;《Image Analysis for Multimedia Interactive Services, 2009. WIAMIS "09. 10th Workshop on》;20090506;第157-160页 *
人体三维运动实时跟踪与建模系统;徐一华等;《自动化学报》;20060731;第32卷(第4期);第560-567页 *

Also Published As

Publication number Publication date
MX2012007595A (es) 2012-11-29
CA2784558C (en) 2016-10-11
CN102812491A (zh) 2012-12-05
TW201142752A (en) 2011-12-01
US20130016879A1 (en) 2013-01-17
TWI520102B (zh) 2016-02-01
EP2357608B1 (en) 2012-11-21
EP2357608A1 (en) 2011-08-17
AU2010338192A2 (en) 2012-08-23
WO2011080282A1 (en) 2011-07-07
JP5462956B2 (ja) 2014-04-02
SG181596A1 (en) 2012-07-30
BR112012015971A2 (pt) 2016-04-19
US8891825B2 (en) 2014-11-18
KR20130000374A (ko) 2013-01-02
CA2784558A1 (en) 2011-07-07
JP2013516014A (ja) 2013-05-09
ZA201204260B (en) 2013-08-28
AU2010338192A1 (en) 2012-07-26
KR101415479B1 (ko) 2014-07-04
AU2010338192B2 (en) 2014-06-19

Similar Documents

Publication Publication Date Title
CN102812491B (zh) 跟踪方法
Gabriel et al. The state of the art in multiple object tracking under occlusion in video sequences
Maddalena et al. People counting by learning their appearance in a multi-view camera environment
Black et al. Multi-camera image measurement and correspondence
KR101409810B1 (ko) 파티클 필터를 이용한 움직임 카메라에서의 실시간 객체 추적 방법
Usmani et al. Particle swarm optimization with deep learning for human action recognition
CN112528781A (zh) 一种障碍物检测方法、装置、设备和计算机可读存储介质
CN111899279A (zh) 一种目标对象的运动速度检测方法及装置
Savitha et al. Motion detection in video surviellance: A systematic survey
Babic et al. Indoor RFID localization improved by motion segmentation
Keck et al. Recovery and reasoning about occlusions in 3D using few cameras with applications to 3D tracking
Havasi et al. A statistical method for object localization in multi-camera tracking
Karavasilis et al. Motion segmentation by model-based clustering of incomplete trajectories
Chandrajit et al. Data Association and Prediction for Tracking Multiple Objects
Pushpa et al. Precise multiple object identification and tracking using efficient visual attributes in dense crowded scene with regions of rational movement
Pawar et al. Survey on Object Detection from Video Sequence
Xu et al. Towards the object semantic hierarchy
Bradski et al. Robot-vision signal processing primitives [applications corner]
Elons et al. Occlusion resolving inside public crowded scenes based on social deep learning model
Rashkevych et al. Tracking in the intersection areas of the cameras fields-of-view of CCTV monitoring distributed systems
García et al. Motion prediction of regions through the statistical temporal analysis using an autoregressive moving average (arma) model
CN117765511A (zh) 障碍物检测方法、装置、机器人及计算机可读存储介质
Andolfi et al. The advanced visual monitoring project at IRST
Reiterer The development of an online knowledge-based videotheodolite measurement system
Seth An image processing Algorithm For Vehicle Detection And Tracking

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant