CN107705320B

CN107705320B - 跟踪视频中的对象的边界点的方法和装置

Info

Publication number: CN107705320B
Application number: CN201610645127.8A
Authority: CN
Inventors: 高拯; 吕尤; 胥立丰
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-08-08
Filing date: 2016-08-08
Publication date: 2022-01-11
Anticipated expiration: 2036-08-08
Also published as: CN107705320A

Abstract

本发明涉及一种跟踪视频中的对象的边界点的方法和装置，其中，所述视频包含一系列的视频帧。该方法包括：区块提取步骤，在第一帧中提取对象的区块；主要结构构建步骤，标记所述区块的至少一个边界点，确定所述区块的中心点，并构建反映所述中心点与所述至少一个边界点之间的相对位置的主要结构；区块跟踪步骤，在与所述第一帧不同的第二帧中，更新所述中心点并更新所述主要结构；以及边界点估计步骤，根据区块跟踪步骤的结果，估计所述至少一个边界点在所述第二帧中的位置。

Description

跟踪视频中的对象的边界点的方法和装置

技术领域

本发明涉及视频分析和图像处理，具体地涉及对视频中的对象进行跟踪。

背景技术

当今摄像机被广泛地使用。摄像机拍摄比人体视觉可以处理的视频内容更多的视频内容。因此，需要对视频内容自动分析。对视频中的对象的边界点进行自动跟踪对于许多应用(例如，对象提取，对象的姿态估计和背景更换等)都非常重要。

视频包含一系列的视频帧或图像。图像也被称为帧。为了描述视频中的单个图像，术语“帧”和“图像”贯穿本说明书被可互换地使用。

现有技术1中，传统的边界点跟踪方法是基于参考点。为了跟踪对象的边界点，在第一帧中提取边界点周围的小区域中的参考点，并在第二帧中相应地定位该参考点。图1示出了现有技术1的一个示例，其包括图1A和图1B。图1A示出第一帧中的边界点和参考点，图1B示出第二帧中的边界点和参考点。图1A和图1B中的线分别表示第一帧和第二帧中的对象的边界线。在星处的点0分别表示第一帧中的边界点和第二帧中的边界点。在图1A中，在第一帧中的边界点0的周围提取参考点，即，点1至点8。在图1B中，这些参考点被定位，并且，这些参考点的均值偏移被设置为边界点0的偏移。然而，由于点5至点8不属于该对象，并且在第二帧中该对象向右移开，所以参考点的均值偏移不能反映边界点的实际偏移。结果是，计算出的边界点的位置是图1B中的三角形处的点9，而边界点的实际位置是图1B中的三角形处的点0。

因此，希望提出一种新技术来精确地跟踪对象的边界点。

发明内容

鉴于上述问题中的至少一个而提出了本发明。

根据本发明的一个方面，提供一种跟踪视频中的对象的边界点的方法，其中，所述视频包含一系列的视频帧，所述方法包括：区块提取(section extracting)步骤，在第一帧中提取对象的区块；主要结构构建步骤，标记所述区块的至少一个边界点，确定所述区块的中心点，以及构建反映所述中心点与所述至少一个边界点之间的相对位置的主要结构；区块跟踪步骤，在与第一帧不同的第二帧中，更新所述中心点并更新所述主要结构；以及边界点估计步骤，根据区块跟踪步骤的结果，估计所述至少一个边界点在第二帧中的位置。

根据下面参照附图对示例性实施例的描述，本发明的另外的特征将变得明显。

附图说明

包含在说明书中并构成本说明书的一部分的附图，示出本发明的实施例，并与本描述一起用于解释本发明的原理。

图1示出现有技术1的示例，其包括图1A和图1B。图1A示出第一帧中的边界点和参考点，图1B示出第二帧中的边界点和参考点。

图2是根据可以实现本发明实施例的第一示例性系统构造的示意性框图。

图3是根据可以实现本发明实施例的第二示例性系统构造的示意性框图。

图4是示出图2和图3中的计算设备420的示例性硬件构造的框图。

图5示出根据本发明的第一示例性实施例的跟踪视频中的对象的边界点的方法的主要流程图。

图6示出根据本发明的第二示例性实施例的跟踪视频中的对象的边界点的方法的主要流程图。

图7示出步骤S300中的在第二帧中更新中心点的示例性流程图。

图8示出步骤S300中的在第二帧中更新主要结构的示例性流程图。

图9示出边界点细化(boundary point refining)的步骤S500的示例性流程图。

图10示出区块提取的步骤S100和主要结构构建的步骤S200的示例性过程。图10包含图10A、图10B、图10C、图10D和图10E，其中，图10A是第一帧的示意图，图10B示出在对象上的提取区块，图10C示出区块J的主要结构，图10E示出区块K的主要结构，图10D示出区块J内的参考点。

图11包括图11A和图11B，示出示例性坐标系。图11A示出第一帧中的坐标系，图11B示出第二帧中的坐标系。

图12包括图12A、图12B、图12C和图12D，其中，图12A、图12B、图12C和图12D示出步骤S500中的边界点细化的两种实现方式的示意图。

图13示出根据本发明示例性实施例的跟踪视频中的对象的边界点的装置1000的构造。

图14示出面部上的角点对于不同的面部表情鲁棒的示例，图14包括图14A、图14B、图14C和图14D，其中，图14A、图14B、图14C和图14D分别示出微笑的脸、大笑的脸、愤怒的脸和哀伤的脸。

具体实施方式

现在将参照附图详细地描述本发明的各种示例性实施例。应当注意，这些实施例中阐述的部件和步骤的相对布置、数值表达式和数值并不限制本发明的范围，除非另有特别说明。

至少一个示例性实施例的以下描述实质上仅仅是说明性的，并且，决不旨在限制本发明、其应用或使用。

相关领域的普通技术人员所公知的技术、方法和装置可能不被详细讨论，但在适当情况下旨在是本说明书的一部分。

在这里所示出和讨论的所有的示例中，任何具体值应该被解释为仅仅是说明性的、非限制性的。因此，示例性实施例的其他示例可以具有不同的值。

请注意，在以下附图中相似的附图标记和字母指的是相似的项目，因此，一旦项目在一个附图中被定义，它就可能不必在下面的附图中被进一步讨论。

图2是根据可以实现本发明实施例的第一示例性系统构造的示意性框图。摄像设备400包括照相机传感器410和连接的计算设备420。照相机传感器410获取视频或图像序列。计算设备420实现跟踪视频中的对象的边界点的方法。计算设备420可以是紧凑的、易于嵌入在摄像设备400中的集成电路芯片的形式。例如，摄像设备400可以是手持式照相机、网络照相机或具有照相机的移动电话。

图3是根据可以实现本发明实施例的第二示例性系统构造的示意性框图。照相机传感器410用来获得视频或图像序列。计算机网络430将这些视频或图像序列传送到计算设备420。计算设备420实现跟踪视频中的对象的边界点的方法。计算设备420可以是本地个人计算机、远程服务器或工作站的形式。

通过输入/输出(I/O)接口510便于将图像从照相机传感器410传送到计算设备420，该I/O接口510可以是符合通用串行总线(USB)标准并具有对应的USB连接器的串行总线。包含图像序列的视频也可以从本地存储设备440下载，该本地存储设备440可以包括SIM卡、SD卡和USB存储卡等。

图像通过I/O接口510获得并被发送到存储器550。处理器520被布置为调用存储器550中存储的、所公开的方法的软件程序。在一个实施例中，处理器520也被布置为提取、解码和执行根据所公开的方法的所有步骤，例如，图5、图6、图7、图8和图9中所示的流程图。处理器520使用系统总线530将从各个操作得到的结果记录到存储器550。除了存储器550以外，也可以经由I/O接口560将输出更永久地存储在存储设备440上。作为另选，也可以使用音频/视频接口568将输出显示在监视器450上以供人观看。

计算设备420可以是各种形式，例如，嵌入在图2中的摄像设备中的处理系统，或图3中的独立计算机，其可能去除了一个或更多个不必要的部件，或添加了一个或更多个附加部件。

接着，详细地解释跟踪视频中的对象的边界点的方法的示例性实施例。

图5示出根据本发明的第一示例性实施例的跟踪视频中的对象的边界点的方法的主要流程图，其中，视频包含一系列的视频帧。

在图5中，S100是在第一帧中提取对象的区块的区块提取步骤。应当注意，所提取的区块是要被跟踪的对象的一部分，该区块包括对象的某些边界点，并且，所提取的区块作为整体移动。

图10示出区块提取的步骤S100和主要结构构建的步骤S200的示例性过程。图10A是第一帧的示意图。人可能会在视频中改变他的姿态，例如，低头或抬头。在这些情形下，他的头和肩膀并不作为整体移动。因此，头部和肩部不在同一提取区块中。替代地，在图10B中提取两个区块，其中，区块J在头部的区域周围，并且，区块K在两个肩部的区域周围。

在图10中，多边形J和K代表提取的区块。图10B示出在对象上的提取区块。应当注意，多边形的边数不受限制。例如，多边形可具有五个边、六个边、七个边、八个边和九个边等。一般来说，多边形具有的边越多，多边形可以描述的轮廓就越详细。

返回到图5的主要流程图。S200是主要结构构建步骤，即，标记区块的至少一个边界点，计算区块的中心点，并构建反映所述中心点和所述至少一个边界点之间的相对位置的主要结构。

图10C和图10E分别示出区块J的主要结构和区块K的主要结构。本发明的示例性方法标记区块J的四个边界点，即，U、V、W和X。该方法计算区块J的中心点，即点L。L可以是几何中心、重心或其他类型的中心。

在本发明的一些实施例中，几何中心点(X_gmc,Y_gmc)由下式计算：

X_i是区块中的第i点在水平轴上的坐标位置，并且，Y_iY是同一点在垂直轴上的坐标位置。N是区块中的点的数量。

在本发明的一些实施例中，重心点(X_grc,Y_grc)由下式计算：

P_i是区块中的第i点的像素值。

因此，该方法得到向量

和

这些向量构成主要结构，其反映中心点L与边界点U、V、W和X之间的相对位置。

因为所提取的区块作为整体在视频中移动，所以所提取的区块的内部结构是稳定的。图14示出面部上的角点对于不同的面部表情鲁棒的示例，其包括图14A、图14B、图14C和图14D，其中，图14A、图14B、图14C和图14D分别示出同一个人的微笑的脸、大笑的脸、愤怒的脸和哀伤的脸。面部的主要结构不会随着面部表情的变化而发生很大的变化。眼睛、嘴巴和鼻子的相对位置几乎是不变的。即使当面部转动一定的角度时，主要结构仍然相对稳定。因此，主要结构用来帮助跟踪对象的边界点。

以类似的方式，在图10E中示出区块K的主要结构，其包括两个向量

和

返回到图5的主要流程图。S300是在第二帧中更新中心点和主要结构的区块跟踪步骤。

首先，解释在第二帧中更新区块的中心点的方法。转到图7，其示出步骤S300中的更新中心点的示例性流程图。

在步骤S310，选择第一帧中的区块内部的至少一个参考点。由于边界点可能不容易跟踪，所以引入参考点作为辅助。参考点具有显著的特征，因此容易跟踪。图10D示出区块J内部的参考点，其中，由三角形标记的点p、q、r和s为参考点。它们是面部上的角点。点p和q是眉毛上的角点。点r和s是嘴上的角点。传统的角点检测技术可以被用来选择角点作为参考点。

参考点并不限制于角点。只要某些点可以帮助确定边界点的位置，这些点就可以作为参考点。可以在第一帧中自动或手动地标记参考点，并且可以在后续帧中自动地跟踪参考点。

为了便于解释，转到图11。图11包括图11A和图11B，示出具有原点O的示例性坐标系YZ。坐标轴Y是水平的，并且，坐标轴Z是垂直的。图11A示出第一帧中的坐标系，图11B示出第二帧中的坐标系。

图11A中的虚线的形状表示第一帧中的对象。多边形EFGH表示对象的提取区块，并且，点E、F、G和H是区块的边界点。M是区块的中心点。在步骤S310选择参考点a、b、c和d，并且，它们可以被手动或自动地标记。

相应地，图11B中的虚线的形状表示第二帧中的对象。多边形E'F'G'H'表示第二帧中的区块，点E'、F'、G'和H'分别对应于点E、F、G和H。M'是与第一帧中的点M对应的第二帧中的区块的中心点。参考点a’、b’、c’和d’分别对应于第一帧中的点a、b、c和d，并且在第二帧中被自动跟踪。

由下面的式(1)计算，其表明

是

与

的第一偏移之和。

的第一偏移 (1)

下面的式(2)用于确定

的第一偏移，即，中心点从第一帧到第二帧的第一偏移。

在步骤S320，计算四个参考点从第一帧到第二帧的第一变化，即，

和

以这种方式，在步骤S330，根据至少一个参考点的第一变化确定区块EFGH的中心点M的第一偏移。

应当注意，虽然在本实现方式中利用了四个参考点，但是参考点的数量并不局限于具体的数量。

此外在式(2)中，各个参考点的变化被等同地对待。作为另选，各个参考点的变化可以被加权。例如，

的第一偏移可由下面的式(3)计算。

存在不同的方式来设置权重α₁、α₂、α₃和α₄。权重可以通过其对应的参考点到关注的边界点的距离来确定。例如，当边界点E被跟踪时，权重具有如式(4)的关系，因为距离具有如式(5)的关系。

α₂>α₁>α₃>α₄ (4)

|EB|<|EA|<|EC|<|ED| (5)

其次，解释在第二帧中更新区块的主要结构的方法。

转到图8，其示出步骤S300中在第二帧中更新主要结构的示例性流程图。

在步骤S340，该方法在第一帧中构建反映中心点与至少一个参考点之间的相对位置的辅助结构。

如图11A所示，向量

和

构成辅助结构，其反映中心点M与参考点a、b、c和d之间的相对位置。

由下面的式(6)计算，其表明

是

与

的第二偏移之和。

的第二偏移 (6)

下式(7)确定

的第二偏移，即，主要结构从第一帧到第二帧的第二偏移，或者主要结构的变形。

在步骤S350，计算辅助结构从第一帧到第二帧的第二变化。第二变化可以被视为辅助结构的变形，并且，由

和

表示。

以这种方式，在步骤S360根据辅助结构的第二变化确定主要结构的第二偏移。

应当注意，虽然在本实现方式中利用了四个参考点，但是参考点的数量并不局限于具体的数量。例如，在式(8)中只使用两个参考点a和b。而且，参考点的数量可以在更新中心点的过程与更新主要结构的过程之间不同。

在一个实施例中，在更新中心点的过程中参考点的数量是四个，由此采用式(2)。在更新主要结构的过程中参考点的数量是两个。对

的计算可以使用式(8)，对

的计算可以使用下式(9)，因为点a和b更靠近点E，并且，点b和c更靠近点F。

而且，在式(7)中，各个参考点相对于中心点的变化被等同地对待。作为另选，各个参考点相对于中心点的变化可以被加权。例如，

的第二偏移可由下面的式(10)计算。

存在不同的方式来设置权重β₁、β₂、β₃和β₄。权重可以通过其对应的参考点到关注的边界点的距离来确定。例如，当边界点E被跟踪时，权重具有如式(11)的关系，因为距离具有如式(12)的关系。

β₂＞β₁＞β₃＞β₄ (11)

|EB|<|EA|<|EC|<|ED| (12)

虽然上面只详细地解释了

的计算，但是

可以与

类似地被计算。

返回到图5的主要流程图。因此，区块跟踪步骤S300可以得到更新后的中心点

和包括

的更新后的主要结构。

接下来，步骤S400是边界点估计步骤，即，根据区块跟踪步骤的结果估计至少一个边界点在第二帧中的位置。边界点E、F、G和H的跟踪结果由式(13)至(16)计算。

图6示出根据本发明的第二示例性实施例的跟踪视频中的对象的边界点的方法的主要流程图。图6中的步骤S100至步骤S400与图5中的步骤S100至步骤S400相同。并且，图6还包括步骤S500，即，在第二帧上实现的边界点细化步骤。

接下来，将参照图9和图12解释步骤S500。图9示出边界点细化的步骤S500的示例性流程图。图12示出步骤S500的边界点细化的实现方式的示意图。

图9中的步骤S510是生成以边界点为其中心的圆的圆生成步骤，其中，从边界点估计步骤S400得到了该边界点。图12A示出边界点估计的结果，其中，椭圆形示出被跟踪的对象，四个箭头示出被跟踪对象的四个边界点的估计位置。针对各个估计的边界点，生成以边界点(即，对应的箭头)为圆的中心的圆。

应当注意，生成的形状并不局限于圆。例如椭圆形或多边形等的其他形状也适用。为了计算简单，采用圆。

步骤S520是获得对象在所述圆内的边缘的边缘获得步骤。

在此步骤中，该方法将检测在各个边界点的候选范围中的边缘。边缘检测方法不受限制。因为对象和背景可能是复杂的并可能包含噪声，所以可能会存在在候选范围中检测到的多个边缘。但是，那些检测到的边缘中只有一个属于边界。因此，此步骤可以给出用于帮助以下选择的各个检测到的边缘的得分。如果检测到多于一个的边缘，则该方法将选择边缘作为导引边界曲线。选择标准不受限制。例如，该标准可以是朝着箭头的最近的边缘，或者，在该范围内的那些曲线的最高得分。选择的边缘将被视为导引边界曲线，以精细地定位边界点。

如果最初估计的边界点不位于导引边界曲线上，则图9中的步骤S530将最初估计的边界点拉伸到导引边界曲线，以提高精确度。可能有各种拉伸的实现方式。图12B和图12C示出拉伸的两种实现方式。

在图12B中示出第一实现方式。在图12B中存在作为圆内的导引边界曲线的边缘。该实现方式确定导引边界曲线和一线的交点作为边界点的细化结果，其中，该线连接当前边界点和所提取的区块的中心点。例如，在图10D中，中心点可以是点L。

在图12C中示出第二实现方式。在图12C中存在作为圆内的导引边界曲线的边缘。该实现方式确定导引边界曲线和一线的交点作为边界点的细化结果，其中，该线是从当前边界点到引导边界边缘的最短直线。

通过上述过程，将精确地跟踪视频中的对象的边界点。

图13示出根据本发明示例性实施例的跟踪视频中的对象的边界点的装置1000的构造。并且，视频包含一系列的视频帧。该装置以及包含在其中的单元可以由硬件、固件、软件或它们的任意组合中的任何一者构造，只要用于将视觉元素分类为前景或背景的、该装置中的单元能够实现前述方法的对应步骤的功能即可。例如，该装置以及包含在其中的单元可以实现图5、图6、图7、图8和图9的工作流程和步骤。

如果装置1000部分或全部由软件构造，则软件被存储在计算机的存储器(例如，图4中的存储器550)中，并且，在计算机的处理器(例如，图4中的部件520)通过执行存储的软件来进行处理时，计算机可以实现本发明的跟踪视频中的对象的边界点的功能。在另一个方面中，装置1000可部分或全部由硬件或固件构造。该装置1000可以作为模块被并入到图2中的计算设备420中。

装置1000可包括：区块提取单元，被构造为在第一帧中提取对象的区块；主要结构构建单元，被构造为标记所述区块的至少一个边界点，计算所述区块的中心点，并构建反映所述中心点与所述至少一个边界点之间的相对位置的主要结构；区块跟踪单元，被构造为在第二帧中更新中心点并更新主要结构；以及边界点估计单元，被构造为根据区块跟踪单元的结果估计所述至少一个边界点在第二帧中的位置。

在一个实施例中，区块跟踪单元被构造为：在第一帧中选择所述区块内部的至少一个参考点；测量所述至少一个参考点从第一帧到第二帧的第一变化；以及根据第一变化确定中心点从第一帧到第二帧的第一偏移。

在一个实施例中，区块跟踪单元被构造为：构建第一帧中的辅助结构，其中，辅助结构反映中心点与至少一个参考点之间的相对位置；测量辅助结构从第一帧到第二帧的第二变化；以及根据第二变化确定主要结构从第一帧到第二帧的第二偏移。

在一个实施例中，针对至少一个边界点中的各个，边界点估计单元被构造为根据中心点的第一偏移和主要结构的第二偏移来估计当前边界点的位置。

在另一个实施例中，所述装置还包括边界点细化单元，其中，边界点细化单元包括：圆生成子单元，被构造为生成以边界点为中心的圆，其中，该边界点是由边界点估计单元得到的；边缘获得子单元，被构造为获得对象在圆内的边缘；细化的边界点确定子单元，被构造为将所获得的边缘和线的交点确定为边界点的细化结果，其中，该线连接当前边界点和所述区块的中心点，或者，该线是从当前边界点到所获得的边缘的最短的直线。

本发明还提供一种由通过网络连接的摄像单元和计算设备构成的对象姿态估计系统，其中，摄像单元被构造为获得视频，并且，获得的视频被传送到计算设备；计算设备包括边界点跟踪单元和姿态估计单元；边界点跟踪单元被构造为根据上述的任一装置来跟踪视频中的对象的边界点；以及姿态估计单元被构造为根据边界点跟踪单元的结果来估计视频中的对象的姿态。

因此，本发明的方法通过如下来估计边界点的候选位置：构建对象的提取区块内部的主要结构，跟踪在上述示例中由

表示的主要结构的位置，并估计在上述示例中由

和

表示的变形的主要结构。提取区块在视频中作为整体移动，并且提取区块的内部结构是稳定的。因此，基于稳定结构计算边界点能够产生精确的结果。

本发明的方法利用参考点来跟踪边界点。在一个方面中，参考点位于对象的提取区块内部，因此，该方法克服了现有技术1中的、如图1所示的易于受背景干扰的问题。在另一方面中，由于边界点可能不容易跟踪，所以引入参考点作为辅助。参考点具有显著的特征，因此容易跟踪。

实验证明了本发明的原理的效果。与现有技术相比，本发明的实施例实现了在不同的情形(例如，在对象在复杂的背景中移动，在平面内和/或在平面外旋转，或者有其他对象经过的情况下)中对要跟踪的对象的边界点的更精确的追踪结果。

因此，本发明提供了一种跟踪视频中的对象的边界点的鲁棒方法，其精确度大为提高。

可以以很多方式来实施本发明的方法和系统。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和系统。本方法的步骤的上述顺序仅旨在是说明性的，并且，本发明的方法的步骤不局限于上述具体描述的顺序，除非另有具体说明。此外，在一些实施例中，本发明还可以被实施为在记录介质中记录的程序，其包括用于实现根据本发明的方法的机器可读指令。

虽然已经利用示例详细地展示了本发明的一些具体实施例，但是本领域的技术人员应该理解，上述示例仅旨在是说明性的，而不限制本发明的范围。本领域的技术人员应该理解，上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求限定。

Claims

1.一种跟踪视频中的对象的边界点的方法，其中，所述视频包含一系列的视频帧，所述方法包括：

区块提取步骤，在第一帧中提取所述对象的区块；

主要结构构建步骤，标记所述区块的至少一个边界点，确定所述区块的中心点，以及构建反映所述中心点与所述至少一个边界点之间的相对位置的主要结构；

区块跟踪步骤，针对所述中心点，选择不同于所述边界点的、在所述第一帧中的所述区块内部的至少一个参考点，并且基于所述至少一个参考点的变化，在与所述第一帧不同的第二帧中，更新所述中心点并更新所述主要结构；以及

边界点估计步骤，根据所述区块跟踪步骤的结果，估计所述至少一个边界点在所述第二帧中的位置。

2.根据权利要求1所述的方法，其中，在所述第二帧中更新所述中心点包括：

测量所述至少一个参考点从所述第一帧到所述第二帧的第一变化；以及

根据所述第一变化确定所述中心点从所述第一帧到所述第二帧的第一偏移。

3.根据权利要求2所述的方法，其中，所述至少一个参考点是角点。

4.根据权利要求2所述的方法，其中，通过计算所述第一变化的加权和来确定所述中心点的所述第一偏移。

5.根据权利要求2所述的方法，其中，在所述第二帧中更新所述主要结构包括：

在所述第一帧中构建辅助结构，其中，所述辅助结构反映所述中心点与所述至少一个参考点之间的相对位置；

测量所述辅助结构从所述第一帧到所述第二帧的第二变化；以及

根据所述第二变化确定所述主要结构从所述第一帧到所述第二帧的第二偏移。

6.根据权利要求5所述的方法，其中，所述边界点估计步骤包括：

针对所述至少一个边界点中的各个，根据所述中心点的所述第一偏移和所述主要结构的所述第二偏移，来估计当前边界点的位置。

7.根据权利要求1至6中的任一项所述的方法，所述方法还包括在所述第二帧上实现的边界点细化步骤，其中，所述边界点细化步骤包括：

圆生成步骤，生成以边界点为中心的圆，其中，该边界点是从所述边界点估计步骤得到的；

边缘获得步骤，获得所述对象在所述圆内的边缘；

细化的边界点确定步骤，将所获得的边缘与线的交点确定为边界点的细化结果，其中，该线连接当前边界点和所述区块的中心点，或者，该线是从当前边界点到所获得的边缘的最短直线。

8.一种跟踪视频中的对象的边界点的装置，其中，所述视频包含一系列的视频帧，所述装置包括：

区块提取单元，其被构造为在第一帧中提取所述对象的区块；

主要结构构建单元，其被构造为标记所述区块的至少一个边界点，确定所述区块的中心点，以及构建反映所述中心点与所述至少一个边界点之间的相对位置的主要结构；

区块跟踪单元，其被构造为针对所述中心点，选择不同于所述边界点的、在所述第一帧中的所述区块内部的至少一个参考点，并且基于所述至少一个参考点的变化，在与所述第一帧不同的第二帧中，更新所述中心点并更新所述主要结构；以及

边界点估计单元，其被构造为根据所述区块跟踪单元的结果，估计所述至少一个边界点在所述第二帧中的位置。

9.根据权利要求8所述的装置，其中，所述区块跟踪单元还被构造为：

10.根据权利要求9所述的装置，其中，所述至少一个参考点是角点。

11.根据权利要求9所述的装置，其中，通过计算所述第一变化的加权和来确定所述中心点的所述第一偏移。

12.根据权利要求9所述的装置，其中，所述区块跟踪单元还被构造为：

根据所述第二变化，确定所述主要结构从所述第一帧到所述第二帧的第二偏移。

13.根据权利要求12所述的装置，其中，针对所述至少一个边界点中的各个，所述边界点估计单元根据所述中心点的所述第一偏移和所述主要结构的所述第二偏移，来估计当前边界点的位置。

14.根据权利要求8至13中的任一项所述的装置，所述装置还包括边界点细化单元，其中，所述边界点细化单元包括：

圆生成子单元，其被构造为生成以边界点为中心的圆，其中，该边界点是由所述边界点估计单元得到的；

边缘获得子单元，其被构造为获得所述对象在所述圆内的边缘；

细化的边界点确定子单元，其被构造为将所获得的边缘和线的交点确定为所述边界点的细化结果，其中，该线连接当前边界点和所述区块的所述中心点，或者，该线是从当前边界点到所获得的边缘的最短直线。

15.一种对象姿态估计系统，该对象姿态估计系统由通过网络连接的摄像单元和计算设备构成，其中，

所述摄像单元被构造为获得视频，并且，所获得的视频被传送到所述计算设备；

所述计算设备包括边界点跟踪单元和姿态估计单元；

所述边界点跟踪单元被构造为根据权利要求8至14中任一项所述的装置，跟踪视频中的对象的边界点；以及

所述姿态估计单元被构造为根据所述边界点跟踪单元的结果，估计视频中的所述对象的姿态。