CN113196297A

CN113196297A - 使用基于图像的对象跟踪确定对象的感兴趣区域

Info

Publication number: CN113196297A
Application number: CN201980082457.2A
Authority: CN
Inventors: 钱昊
Original assignee: Hangzhou Taro Positioning Technology Co Ltd
Current assignee: Hangzhou Taro Positioning Technology Co Ltd
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2021-07-30
Anticipated expiration: 2039-01-08
Also published as: US20220084214A1; CN113196297B; WO2020142892A1; US11900616B2

Abstract

一种分析对象的方法。该方法包括：使用相机设备来捕获包括附接到对象中包含的多个元素中的第一元素的光源的场景图像序列；通过硬件处理器基于所述图像序列上的局部光变化模式检测所述场景中的光源；通过所述硬件处理器确定所述光源在所述图像序列的至少一幅图像中的位置；通过所述硬件处理器基于所述光源的位置和所述对象的动态模型生成用于分析所述对象的感兴趣区域；以及基于所述感兴趣区域生成所述对象的分析结果，其中基于所述分析结果执行预定任务。

Description

使用基于图像的对象跟踪确定对象的感兴趣区域

背景技术

视场(FOV)是由相机成像的场景的范围。FOV内部的对象将出现在相机捕获和/或输出的图像中。例如，FOV可对应于相机镜头将输入到相机的光学传感器的光透射到其中的立体角。

发明内容

总体上，一方面，本发明涉及一种用于分析场景中的对象的方法。该方法包括：使用相机设备来捕获包括附接到对象中包含的多个元素中的第一元素的光源的场景图像序列(sequence of images)；通过硬件处理器基于所述图像序列上的局部光变化模式检测所述场景中的光源；通过所述硬件处理器确定所述光源在所述图像序列的至少一幅图像中的位置；通过所述硬件处理器基于所述光源的位置和所述对象的动态模型生成用于分析所述对象的感兴趣区域；以及基于所述感兴趣区域生成所述对象的分析结果，其中基于所述分析结果执行预定任务。

总体上，在一个方面，本发明涉及一种跟踪控制器。所述跟踪控制器包括计算机处理器，和存储器，其耦合到计算机处理器并存储指令，在被执行时，使计算机处理器执行以下操作：使用相机设备捕获包括附接到对象中包含的多个元素(element)中的第一元素的光源的场景图像序列；基于图像序列上的局部光变化模式，检测所述场景中的光源；确定所述光源在所述图像序列的至少一幅图像中的位置；基于所述光源的位置和所述对象的动态模型，生成用于分析对象的感兴趣区域；以及基于所述感兴趣区域生成所述对象的分析结果，其中基于所述分析结果执行预定任务。

总体上，在一个方面，本发明涉及一种用于分析场景中的对象的系统。该系统包括光源，其被附接到对象中包含的多个元素中的第一元素；相机设备，其被配置为捕获场景图像序列；以及跟踪控制器，其被配置为：基于所述图像序列上的局部光变化模式，检测所述场景中的光源；确定所述光源在所述图像序列的至少一幅图像中的位置；以及基于所述光源的位置和所述对象的动态模型，生成用于分析所述对象的感兴趣区域。总体上，一方面，本发明涉及一种非暂时性计算机可读介质，其存储用于分析场景中的对象的指令，所述指令在由计算机处理器执行时具有以下功能：使用相机设备捕获包括附接到对象中包含的多个元素中的第一元素的光源的场景图像序列；通过基于图像序列上的局部光变化模式的硬件处理器检测所述场景中的光源；确定所述光源在所述图像序列的至少一幅图像中的位置；基于所述光源的位置和所述对象的动态模型，生成用于分析所述对象的感兴趣区域；以及基于所述感兴趣区域生成所述对象的分析结果，其中基于所述分析结果执行预定任务。

通过以下描述和所附权利要求书，本发明的其他方面将变得显而易见。

附图说明

图1.1和1.2示出了根据本发明的一个或多个实施方案的系统的示意性框图。

图2.1和2.2示出了根据本发明的一个或多个实施方案的方法流程图。

图3.1、3.2、3.3、4、5、6.1、6.2和6.3示出了根据本发明的一个或多个实施方案的各种示例。

图7.1和7.2示出了根据本发明的一个或多个实施方案的计算系统。

具体实施方式

现在将参考附图详细描述本发明的特定实施方案。为了一致性，各个附图中的相同元件可以由相同的附图标记表示。

在下面对本发明的实施方案的详细描述中，阐述了许多具体细节以便提供对本发明的更透彻的理解。然而，对于本领域的普通技术人员将显而易见的是，本发明可以在没有这些具体细节的情况下被实施。在其他情况下，没有详细描述众所周知的特征，以避免不必要地使描述变得复杂。

在以下描述中，在本发明的各种实施方案中，附图描述的任何组件可以等同于任何其他附图描述的一个或多个相同名称的组件。为了简洁起见，基于各种图例隐式地标识了这些组件的至少一部分。此外，将不再重复每个附图中关于这些组件的描述。因此，每个附图的组件的每个和每一个实施方案通过引用的方式并入，并假定为可选地存在于具有一个或多个相同名称的组件的每个其他附图中。另外，根据本发明的各种实施方案，对附图的组件的任何描述都将被解释为可选的实施方案，该可选的实施方案可以附加地、结合于或代替与其他任何附图中对应的类似名称的组件相关的实施方案而实现。在附图中，黑色实线共线点表示可以可选地存在与实线共线点之前和/或之后的组件相似的附加组件。此外，连接附图的各组件的实线或虚线表示所连接的组件之间的关系。虚线表示该关系可能不包括任何物理连接或物理元件或不与之相关联。

在申请通篇中，序数(例如，第一、第二、第三等)可以用作元素(即，申请中的任何名词)的形容词。除非明确公开，例如通过使用术语“之前”，“之后”，“单个”和其他此类术语，否则序数的使用并不暗示或创建元素的任何特定顺序，也不意味着将任何元素限制为单个元素。相反，使用序数是为了区分元素。举例来说，第一元素不同于第二元素，并且第一元素可以包含一个以上的元素，并且可以按照元素的顺序在第二元素之后(或之前)。

本发明的实施方案提供了一种减少图像处理中用于分析场景中对象的计算资源的方法。在本发明的一个或多个实施方案中，在捕获图像序列的同时，将光源附接到对象的元素。在一个或多个实施方案中，光源在图像序列上产生局部光变化模式。基于所述局部光变化模式，在图像序列中检测光源。基于对象的动态模型并通过确定光源在图像序列的至少一幅图像中的位置，确定用于分析对象的感兴趣区域。因此，基于感兴趣区域生成对象的分析结果，从而可以基于分析结果有利地执行预定任务。与分析场景中的对象的其他图像处理方法相比，基于感兴趣区域的图像处理消除了或减少了用于分析感兴趣区域之外的场景部分的计算资源的使用。

图1.1示出了根据一个或多个实施方案的系统100。在一个或多个实施方案中，图1.1中所示的一个或多个模块和元件可以被省略、重复和/或替换。因此，本发明的实施方案不应被认为限于图1.1所示的模块的特定布置。

如图1.1所示，系统100包括带有相机镜头111的相机设备110、跟踪控制器120、相机设备固定器(holder)130、场景140、像机镜头111的视场(FOV)141、出现在FOV 141内的对象(例如，对象A 142a、对象B 142b)、附接到所述对象的光源(例如，光源A 143a、光源B143b)以及FOV 141内的裁剪区域(crop field)(例如，裁剪区域A 144a、裁剪区域B 144b)。如本文所使用的，将光源附接到对象是指光源物理上位于距对象或对象的元素的预定范围内。预定范围足够小(例如1英寸或更小)，使得光源的位置表示对象的位置或对象的元素的位置在足够小的公差(例如1英寸或更小)内。

光源是其中光源被相机设备110捕获的光源。例如，光源A 143a被示为附接到对象A 141a的反射光源，而远程光发射器114发出频闪光A 115照在反射光源A 143a上生成对象反射光116。另外，光源B 143b是附接到对象B 142b上并发出频闪光B 117的本地光发射器。因此，由相机设备110通过相机镜头111捕获对象反射光116和频闪光B 117，有助于生成一张或多张图像。另外，环境光(未示出)也是对由相机设备110捕获的图像做出贡献的光源。术语“光源”还可以指由光源在捕获的图像中产生的对应点。在本发明通篇中，远程光发射器和本地光发射器被称为光发射器，并且频闪光可以由远程光发射器或本地光发射器发射。此外，相机设备110、跟踪控制器120和相机设备固定器130彼此通信耦合。在本发明的一个或多个实施方案中，远程光发射器114、相机设备110、跟踪控制器120和相机设备固定器130中的两个或更多个被集成到单个设备中。例如，跟踪控制器120的至少一部分可以被包括在相机设备110中。在另一示例中，跟踪控制器120的至少一部分可以被包括在相机设备固定器130中。在又一示例中，跟踪控制器120的一部分被包括在相机设备110中，而跟踪控制器120的另一部分被包括在相机设备固定器130中。类似地，远程光发射器114可以与相机设备110、跟踪控制器120或相机设备固定器130集成在一起。

在本发明的一个或多个实施方案中，光发射器(例如，光源B 143b的远程光发射器114或本地光发射器)是任何发光的设备。例如，光发射器可以以大角度(例如，超过45度的平面角、1平方弧度的立体角等)发光，作为泛光发射器。在另一个示例中，光可以发射准直光束作为准直光发射器。远程光发射器114可以与对象A 142a分开例如一定距离，例如1米或更大。在一个或多个实施方案中，光发射器包括发光二极管(LED)。在一个或多个实施方案中，频闪光(例如频闪光A 115、频闪光B 115)不时改变强度和/或波长。例如，频闪灯可以根据特定的占空比(即，当光模式具有亮水平时的时间百分比)和重复率(即在一个单位时间内强度改变的时间)产生自由运行的光变化模式。如本文所使用的，光变化模式是光的强度和/或波长变化的模式。在一个或多个实施方案中，与相机设备110的帧率相比，光发生器以低重复率(例如10赫兹、20赫兹等)产生光变化模式。帧率是在单位时间内由相机设备110捕获的图像的数量(例如，连拍静止图像或录像)。在一个或多个实施方案中，光发生器产生与相机设备110的帧率同步的光变化模式。在一个或多个实施方案中，光发射器发射红外光。换句话说，频闪光具有例如在700纳米(nm)和1毫米(mm)之间的红外波长。在本发明通篇中，术语“红外波长”是指700nm至1mm之间的波长。在一个或多个实施方案中，由频闪光产生的光变化模式表示编码的数字数据。例如，由红外频闪光产生的编码的数字数据可以类似于红外远程控制代码。

在本发明的一个或多个实施方案中，反射光源A 143a是对象A 142a的反射区域，其反射频闪光A 115以产生对象反射光116。在这种情况下，反射光源A 143a被称为发射对象反射光116。在一个或多个实施方案中，反射区域对红外波长的反射率高于对可见波长的反射率。例如，较高的反射率可以基于对红外波长的反射率比对可见波长的反射率高的反射材料。当频闪光A 115和环境光(未示出)都照在反射区域上时，对象反射光116的来自频闪光A 115的红外反射率(content)可能比来自环境可见光的可见光的反射率高。在一个或多个实施方案中，对象A 142a是人、动物、机器人或任何其他运动对象，并且反射光源A143a包括附着到对象A 142a的反射材料。例如，反射材料可以是人、动物、机器人或任何其他运动对象穿戴或以其他方式附接的腕带、臂带、皮带、指环、吊坠、项链、帽子、手套、衣服等的一部分。在一个或多个实施方案中，反射材料可包括金属、介电材料或金属与介电材料的组合。在一个或多个实施方案中，反射材料可以是上述腕带、臂带、皮带、指环、吊坠、项链、帽子、手套、衣服等的表面上的涂层或涂膜。例如，涂层或涂膜可包括红外反射颜料，例如二氧化钛。特别地，二氧化钛对于红外波长可以具有超过75％的反射率。

在一个或多个实施方案中，反射材料包括几何图案，该几何图案对于红外波长具有几何变化的反射率，以产生几何光变化图案。特别地，反射材料的几何图案产生由相机镜头捕获的对象反射光的空间变化，作为与环境光的额外区别。换句话说，几何图案提高了反射光源的检测精度。如本文所使用的，几何光变化图案是根据几何图案的光强度变化的模式。例如，可以通过使用前述红外反射颜料例如二氧化钛的表面涂覆/喷涂来产生几何图案。在一个或多个实施方案中，来自反射光源A 143a的对象反射光116包括基于上述源自远程光发射器114的光变化模式的时间调制和/或基于反射光源A 143a的几何光变化图案的空间调制。

在本发明的一个或多个实施方案中，相机设备110是具有用于拍摄照片和/或录像的相机镜头(例如，相机镜头111)和相关组件的设备。例如，相关组件可以包括互补金属氧化物半导体(CMOS)或电荷耦合器件(CCD)传感元件，其被配置为基于投射到CMOS或CCD传感元件上的光来生成基于像素的图像。在一个或多个实施方案中，相机镜头111与用于产生IR图像的CMOS或CCD传感器以及用于产生可见光图像的CMOS或CCD传感器相关联。例如，IR图像传感元件和可见光传感元件可以彼此分离。在另一个示例中，IR图像传感元件和可见光传感元件可以集成在一起。换句话说，单个传感元件可以用于生成IR图像和可见光图像两者。具有通信能力的专用相机是相机设备110的实例。在一个或多个实施方案中，相机设备110是移动设备，例如具有内置相机的移动手机，称为智能手机。智能手机可以具有带有图形用户界面的显示器，该显示器占据正面的很大一部分(例如70％或更大)。相机镜头111可以在智能手机的正面或背面。

在一个或多个实施方案中，场景140是发生由相机设备110成像的动作或事件的地方。特别地，动作或事件可以与对象(例如，对象A 142a、对象B 142b)相关联。此外，一个或多个对象可以是静止的、不时运动的或在场景140内不断运动的。视场(FOV)141是由相机设备110使用相机镜头111成像的场景140的范围。换句话说，FOV 141内部的对象(例如，对象142)将出现在由相机设备110捕获和/或输出的图像中。例如，FOV 141可以对应于立体角，在该立体角内，相机镜头111透射输入到相机设备110的相关联的光学传感器(未示出)的光。在一个或多个实施方案中，FOV 141根据相机镜头111如何朝向场景140定向、相对于场景140变焦或相对于场景140定位而对应于场景140的不同部分。在一个或多个实施方案中，对象142可以在动作或事件期间在场景140内运动。

在一个或多个实施方案中，对象跟踪是使相机镜头111相对于场景140定向、相对于场景140缩放或相对于场景140定位的动作，以使对象142在图像捕获期间连续地在FOV141内，或者在FOV 141内的目标位置。在一个或多个实施方案中，对象跟踪是基于对应的裁剪区域来裁剪所捕获的图像或视频帧的动作。裁剪是去除捕获的图像或视频帧的外围部分的操作。捕获的图像或视频帧的剩余部分是裁剪的图像。裁剪区域是要从捕获的图像或视频帧中提取剩余部分以生成裁剪的图像的范围。换句话说，裁剪区域(例如，裁剪区域A144a、裁剪区域B 144b)对应于FOV 141的一部分，其中图像传感元件的输出被保留以用于图像裁剪。例如，在FOV 141明显大于裁剪的图像的情况下，相机设备110可以是静止的。当对象B 142b沿着轨迹147在场景140上运动时，每幅捕获图像或视频帧的裁剪区域可从裁剪区域A 144a移动到裁剪区域B 144b，使得运动对象B 142b看起来与相应裁剪的图像内的目标位置基本对准。在一个或多个实施方案中，裁剪在后期制作阶段期间执行，后期制作阶段是相机设备110输出捕获的图像或视频帧之后的图像处理阶段。

在本发明通篇中，术语“对象跟踪”和“跟踪”可以互换地使用。在一个或多个实施方案中，相机设备110包括硬件组件、软件组件或它们的组合。在一个或多个实施方案中，相机设备110可包括或使用参考下面的图7.1和7.2描述的计算系统700和网络720的至少一部分来实现。

在本发明的一个或多个实施方案中，相机设备固定器130被配置为机械地保持相机设备110，并响应于来自跟踪控制器120的控制信号来调整相机镜头111的FOV 141。例如，相机设备固定器130可以包括用于调整相机镜头111的相机角度的电动倾斜和旋转设备。在另一个示例中，相机设备固定器130可以包括用于调整相机镜头111相对于场景140的位置的电动水平和垂直滑动设备。滑动设备可以包括用于保持和移动相机设备110的机械平台。相机设备固定器130的示例参照下面的图3.1、3.2和3.3进行描述。

在一个或多个实施方案中，跟踪控制器120包括硬件组件、软件组件或其组合，其被配置为生成对象的感兴趣区域对象(例如，对象A 142a、对象B 142b)。感兴趣区域可以用于进一步处理以执行与对象(例如，对象A 142a、对象B 142b)相关联的某些任务。在一个或多个实施方案中，跟踪控制器120还被配置为通过调整相机镜头111的FOV 141或通过确定裁剪区域(例如，裁剪区域A 144a裁剪区域B 144b)进行图像裁剪来执行对象跟踪。例如，跟踪控制器120可以通过控制相机设备固定器130来控制FOV 141。在另一示例中，跟踪控制器120可以通过控制相机镜头111的缩放级别来进一步控制FOV 141。在一个或多个实施方案中，跟踪控制器120使用参考以下图2.1和2.2描述的方法来生成感兴趣区域并执行对象跟踪。在一个或多个实施方案中，跟踪控制器120包括参考下面图1.2描述的组件。

尽管图1.1中所示的光源既包括本地光发射器又包括反射光源，在仅使用本地光发射器器或仅使用反射光源的情况下，其他配置也是可能的。例如，光源A 143a和光源B143b都可以是本地光发射器。在另一示例中，光源A 143a和光源B 143b都可以是由单个远程光发射器114发出的反射光源。

尽管图1.1所示的系统100仅包含一个相机设备和相机设备固定器，包含多个相机设备和多个相机设备固定器也是可能的。例如，多个相机设备可以被配置为同时跟踪具有不同编码光源的不同对象而不产生冲突。

图1.2示出了根据一个或多个实施方案的跟踪控制器120的细节。图1.2的下列描述是指以上图1.1中描述的各种组件。在一个或多个实施方案中，图1.2中所示的一个或多个模块和元件可以被省略、重复和/或替换。因此，本发明的实施方案不应被认为限于图1.2所示的模块的特定布置。

如图1.2所示，跟踪控制器120包括硬件处理器121、存储器122和存储库123。在本发明的一个或多个实施方案中，硬件处理器121对应于以下图7.1所示的计算机处理器702。类似地，存储器122和存储库123对应于以下图7.1中所描绘的非持久性存储器704和/或持久性存储器706。例如，存储器122可以存储软件指令，该软件指令在被执行时使硬件处理器121执行以上图1.1中描绘的跟踪控制器120的执行感兴趣区域的生成和对象跟踪功能。在一个或多个实施方案中，跟踪控制器120根据参考下面的图2.1和2.2描述的方法流程图来执行感兴趣区域的生成和对象跟踪功能。在一个或多个实施方案中，存储器122存储指令以执行参考下面的图2.1和2.2描述的方法流程图的一个或多个部分。在一个或多个实施方案中，跟踪控制器120和相机设备110被集成到单个设备中。在这样的实施方案中，执行参考图2.1和2.2描述的方法流程图的一个或多个部分的指令是移动应用程序或移动app的一部分，移动应用程序是一种用户可安装的软件应用程序，设计为在智能手机或其他移动设备上运行。

进一步如图1.2所示，储存库123包括图像序列126、光变化模式124、位移125、运动参数128、目标位置127、控制信号129、裁剪区域144、动态模型145和感兴趣区域146。特别地，图像序列126包括由相机设备111捕获的连续图像(例如，图像A 126a)。例如，图像A126a对应于场景140的在特定时间点被FOV 141覆盖的部分。光变化模式124是光强度和/或波长在图像序列126上的不同强度水平和/或波长之间交替的模式。

在一个或多个实施方案中，光变化模式124对应于图像序列126的每幅图像中的斑点。例如，可以通过每幅图像中的像素位置或连接的像素位置的集合来定义斑点。在此上下文中，将光变化模式124称为由相机设备111捕获的局部光变化模式。在一个或多个实施方案中，光变化模式124由频闪光(例如，频闪光A 115、频闪光B 117)产生，并指示光源143(例如光源A 143a、光源B 143b)在每幅图像内的位置。换句话说，可以基于在图像序列126上找到光变化模式124的位置来确定每幅图像内的光源(例如，光源A 143a、光源B 143b)的位置。例如，光变化模式124指示光源在图像A 126a中的位置A 127a处。类似地，图像序列126中的每个其他图像与光源的位置相关联。目标位置127是跟踪控制器120被配置为用于跟踪对象(例如，对象A 142a、对象B 142b)的预定位置。例如，目标位置127可以被定义为FOV141的中心，其对应于图像序列126中的每幅图像的中心。换句话说，跟踪控制器120被配置为调整FOV 141，使得被跟踪的对象出现在调整之后的图像的中心(即，目标位置127)。在另一个示例中，目标位置127可以被定义为裁剪区域的中心(例如，裁剪区域A 144a、裁剪区域B 144b)，其对应于相应的裁剪的图像的中心。换句话说，跟踪控制器120被配置为确定裁剪区域(例如，裁剪区域A 144a、裁剪区域B 144b)，使得在图像裁剪后被跟踪的对象出现在图像中心(即，目标位置127)。在其他示例中，目标位置127可以被定义为FOV 141中的另一个相关位置(与中心位置不同)或裁剪区域(例如，裁剪区域A 144a、裁剪区域B 144b)。位移125是目标位置127和图像中的光源的位置(例如，位置A 127a)。在一个或多个实施方案中，位移125包括水平方向距离和垂直距离。位移125可由基于多个像素或任何其他合适的距离比例表示。在一个或多个实施方案中，对象可以是使得光源的位置(例如，位置A 127a)可以在图像序列126中从一幅图像到另一幅图像变化的对象。在这样的实施方案中，运动参数128是光源的位置(例如，位置A 127a)随时间的变化率。例如，运动参数128可以包括光源的位置(例如，位置A 127a)从图像序列126中的一幅图像到下一幅图像的变化。取决于跟踪的对象的运动方向，运动参数128可以包括水平部分和垂直部分。在数学上，运动参数128对应于位移125随时间的导数。

在一个或多个实施方案中，光变化模式124包括光强度变化和/或光波长变化。特别地，光强度变化和/或光波长变化与变化的重复率相关。在一个或多个实施方案中，光强度变化和/或光波长变化以及相关的重复率定义了数字代码。例如，数字代码可以包括头部和随后的数字模式，其中头部和随后的数字模式可以在光变化模式124内重新出现。该数字代码对于场景140中的每个光源可以是不同的，并且可以用于识别与光源附接的对象。在这种情况下，将由光强度变化和/或光波长变化与光变化模式124的相关重复率定义的数字代码称为对象识别码124a。在一个或多个实施方案中，光强度变化和/或光波长变化是由光发生器产生的时间变化。在一个或多个实施方案中，光强度变化和/或光波长变化还包括由反射光源的前述几何图案产生的空间变化。

在一个或多个实施方案中，控制信号129是软件应用程序使用的指定相机方向和/或缩放信息的数字数据消息，以执行对象跟踪。例如，数字数据消息可以作为控制信号129无线地传输。在一个或多个实施方案中，控制信号129是模拟电信号，其触发硬件以执行相机定向和/或缩放功能以用于对象跟踪。例如，模拟电信号可以是无线信号。

裁剪区域144对应于上面的图1.1所示的裁剪区域A 144a和/或裁剪区域B 144b，是FOV 141的一部分，其中保留了图像传感元件的输出以用于图像裁剪。

动态模型145是描述对象的元素之间的机械连接(linkage)的对象(例如，对象A142a、对象B 142b)的模型。在一个或多个实施方案中，动态模型145包括表示对象元素的节点和表示机械连接的连接对象元素的链接(link)。例如，人类对象的动态模型145可以包括代表头部元素、颈部元素、骨盆元素、膝盖元素、脚踝元素以及其他身体元素的节点。相应地，动态模型145还可以包括连接代表头部元素和颈部元素的节点的颈部链接、连接代表颈部元素和骨盆元素的节点的躯干链接、连接代表骨盆元素和膝盖元素的节点的大腿链接、连接代表膝盖元素和脚踝元素的节点的小腿链接，以及其他链接。基于人体的统计性质，动态模型145可以进一步包括头部元素的尺寸范围(例如，直径5-7英寸)，长度范围(例如，长度12-24英寸)。躯干链接、大腿链接的长度范围(例如，长度为10-20英寸)以及躯干链接和大腿链接之间的角度范围(例如，10度至190度)。长度范围和角度范围定义每个身体元素的运动范围。姿势(例如，站、坐、躺、等)是由动态模型145中的链接的角度和方向定义的身体元素的配置。例如，站姿可以对应于躯干链接和大腿链接两者的垂直方向。坐姿可对应于躯干链接的垂直方向和大腿链接的水平方向。在一或多个实施方案中，垂直或水平方向可具有角度公差，例如+/-10度。基于检测到的特定身体元素(例如骨盆元素)的位置、一个或多个连接链接的长度范围，以及相关的角度公差，可以确定另一个身体元素(例如头部元素或膝盖元素)所在位置的概率。概率图是带有特定身体元素可能出现的概率的场景图。感兴趣区域146是场景中具有可能出现特定身体元素的概率足够高(例如，超过诸如80％或90％的预定阈值)的部分。取决于分析对象的重点，感兴趣区域可以对应于定位单个身体元素或身体元素集合的概率超过所确定的阈值的位置。

在一个或多个实施方案中，跟踪控制器120基于图像序列126、光变化模式124、位移125、运动参数128、目标位置127和动态模型145来执行感兴趣区域生成和对象跟踪功能，以生成如上所述的控制信号129、裁剪区域144和感兴趣区域146。图像序列126、光变化模式124、对象识别码124a、位移125、运动参数128、动态模型145和感兴趣区域146的示例参照下面的图4-6.3所述。

图2.1示出了根据一个或多个实施方案的流程图。图2.1所示的过程可由例如由以上讨论的参照图1.1和1.2的一个或多个组件来执行。图2.1中所示的一个或多个步骤在本发明的不同实施方案之间，可以以不同的顺序被省略、重复和/或执行。因此，本发明的实施方案不应被认为限于图2.1中所示的步骤的特定数目和布置。

图2.1中描绘的流程图描述了一种分析场景中对象的方法。对象可以是静止的、不时移动运动的或在场景中不断运动的。

最初在步骤221中，使用相机设备捕获场景图像序列。在本发明的一个或多个实施方案中，光源被附接到对象的一个或多个元素，以在图像序列中跟踪对象。在一个或多个实施方案中，在光源附接到对象的情况下捕获图像序列是基于参考以下图2.2描述的方法。

在步骤222中，在场景中检测光源。在一个或多个实施方案中，通过硬件处理器基于图像序列上的局部光变化模式来检测光源。在一个或多个实施方案中，基于局部光变化模式来检测光是基于参考以下图2.2描述的方法。

在步骤223中，确定光源的位置。在一个或多个实施方案中，通过硬件处理器确定光源在图像序列的至少一幅图像中的位置。在一个或多个实施方案中，使用参考以下图2.2中描述的方法确定光源在至少一幅图像中的位置。

在步骤224中，生成用于分析对象的感兴趣区域。感兴趣区域是通过基于对象的动态模型从对象的特定元素的位置扩展而生成的。在一个或多个实施方案中，对象的元素的位置对应于光源在图像序列的至少一幅图像中的位置。具体而言，对象的特定元素是光源所附接的位置。

如上所述，动态模型描述了对象元素之间的机械连接。基于直接或间接地导致对象的上述特定元素的机械连接，确定了对象的至少一个其他元素相对于该特定元素的范围限制。在一个或多个实施方案中，针对对象的多个姿势中的每个姿势来确定至少一个其他元素的范围限制。例如，对象可以是可能会不时采取几种姿势中的任何一种的人、动物或机器人。在示例时间段期间，对象可以以相等的概率采取每个姿势。在另一示例时间段内，每个姿势可以具有对象将采取的不同概率。因此，基于相应的概率，在姿势的数量上集合至少一个其他元素的范围限制，以生成概率图。概率图描述了对象的至少一个其他元素可以位于场景内的概率。场景中概率超过预定阈值(例如80％、90％等)的部分被指定为用于分析对象的感兴趣区域。取决于分析对象的焦点，感兴趣区域可以对应于在场景内定位对象的单个元素或元素集合的概率超过确定的阈值的位置。

在步骤225中，基于感兴趣区域生成对象的分析结果。在一个或多个实施方案中，分析结果是所捕获图像中一个或多个特征的逻辑解释。例如，可以从在以上步骤221中捕获的图像序列中的至少一个中提取特征。在另一示例中，可以从与在以上步骤221中捕获的图像序列分离的场景图像中提取特征。在一个或多个实施方案中，数字图像处理算法用于基于所捕获图像中的像素数据来生成分析结果。例如，数字图像处理算法可以用于使捕获的图像中的像素的集合相关，将相关结果与预定模板或阈值进行比较，以及基于比较结果来提取特征。在一个或多个实施方案中，分析结果包括除对象之外的场景的背景图像。在这样的实施方案中，可以通过从至少一幅图像中排除整个对象的感兴趣区域来生成部分背景。在对象是运动对象的情况下，可以将这种方式生成的多个部分背景随时间进行组合以生成完整的背景图像。与通过检测场景的各个部分的独特特征(例如，形状、颜色、对比度、运动等)，基于感兴趣区域生成背景图像的其他方法来生成背景图像的其他方法相比，消除了或者减少了使用计算资源来分析感兴趣区域之外的场景部分。

在一个或多个实施方案中，对象包括人、动物或机器人，并且分析结果包括对象的面部表情(例如，微笑、咧嘴、哭泣、愤怒等)或手势(例如，OK、STOP、挥手等)。在确定面部表情的一个或多个实施方案中，基于与对象的头部元素相对应的概率图来选择至少一幅图像的一部分。例如，头部元素的感兴趣区域可以被识别为对象的面部位于至少一幅图像中的位置。因此，使用面部表情识别算法来分析至少一幅图像中的头部元素的感兴趣区域，以确定对象的面部表情。与通过将面部表情识别算法应用于至少一幅图像的整体来确定面部表情的其他方法相比，基于感兴趣区域确定面部表情消除了使用计算资源来分析感兴趣区域之外的至少一幅图像的一部分。

在确定手势的一个或多个实施方案中，基于与对象的上肢相对应的概率图来选择至少一幅图像的一部分。例如，上臂元素、肘元素、手腕元素和手元素的集合的感兴趣区域可以被识别为上肢位于至少一幅图像内的位置。因此，使用手势识别算法来分析至少一幅图像内的上肢的感兴趣区域，以确定对象的手势。与通过将手势识别算法应用于至少一幅图像的整体来确定手势的其他方法相比，基于感兴趣区域确定手势消除了使用计算资源来分析感兴趣区域之外的至少一幅图像的一部分图像。

在步骤226中，基于分析结果执行预定任务。在一个或多个实施方案中，基于至少一个背景图像来执行预定任务。例如，预定任务可以包括将某些数字滤波功能(例如，平滑滤波器、单色滤波器等)应用于捕获的图像的背景。例如，用于确定背景的图像序列可以是IR图像，而捕获的图像可以基于可见光来捕获。

在一个或多个实施方案中，预定任务是基于面部表情或手势中的至少一个来执行的。例如，预定任务可以包括当对象开始微笑或哭泣时开始拍照或录像。在另一个示例中，预定任务可以包括当对象做出某些手势时执行智能家庭控制功能(例如，打开/关闭室内照明或空调)。

在响应于对象的某些面部表情或手势而开始拍照或录像的示例中，可以在捕获的图像或视频帧内跟踪对象。换句话说，对象看起来与捕获的图像或视频帧内的目标位置基本对准。在一个或多个实施方案中，通过控制相机设备的FOV来执行跟踪。例如，可以使用参考图以下2.2描述的方法在捕获的图像或视频帧内跟踪对象。在一个或多个实施方案中，通过基于对应的裁剪区域裁剪所捕获的图像或视频帧来执行跟踪。例如，在FOV明显大于裁剪的图像的情况下，相机设备可以是静止的。当对象在场景中运动时，将根据检测到的光源的位置(作为FOV的运动部分)确定每个捕获的图像或视频帧的裁剪区域。具体地，将裁剪区域确定为FOV的运动部分，以使得运动对象与裁剪的图像内的目标位置基本对准。

图2.2示出了根据一个或多个实施方案的流程图。图2.2所示的过程可由例如由以上讨论的参照图1.1和1.2的一个或多个组件来执行。图2.2中所示的一个或多个步骤在本发明的不同实施方案之间，可以以不同的顺序被省略、重复和/或执行。因此，本发明的实施方案不应被认为限于图2.2中所示的步骤的特定数目和布置。

最初，在步骤201中，激活场景内的光源。在本发明的一个或多个实施方案中，光源是附接到场景中对象的反射区域。在这些实施方案中，通过使用远程光发射器将频闪光发射并投射到反射区域上来激活反射光源。例如，当远程光发射器打开时，频闪光以自由运行的光模式(pattern)发射。结果，频闪光被反射区域反射，以产生具有相同自由运行的光模式的对象反射光。在本发明的一个或多个实施方案中，光源是附接到场景中对象的本地光发射器。在这些实施方案中，通过激活本地光发射器发射频闪光来激活光源。例如，当打开本地光发射器时，频闪光以自由运行的光模式发射。

在一个或多个实施方案中，与相机设备的帧率相比，频闪光和对象反射光具有低重复率(例如10赫兹，20赫兹等)的频闪光。在一个或多个实施方案中，频闪光和对象反射光与相机设备的帧率同步。例如，可以基于从跟踪控制器和/或相机设备发送的触发信号来启动和/或同步频闪光。在一个或多个实施方案中，频闪光和/或对象反射光的强度和/或波长随着相关的重复率而改变，以限定对象识别码。

在步骤202中，由相机设备捕获场景图像序列。尤其是，对象在相机镜头的视场(FOV)内，并出现在图像序列中。例如，图像序列可以包括连拍静止图像或作为其一部分。在另一个示例中，图像序列可以包括录像或可以是录像的一部分。在一个或多个实施方案中，在光源发射对象反射光或频闪光的同时捕获场景图像序列。在一个或多个实施方案中，基于光源的占空比和/或重复率来选择图像序列的帧率，以使得连续图像(或序列中具有特定间隔的一对图像)包括光发射器的交替亮水平和暗水平，和/或交替波长。例如，远程或本地光发射器可以是自由运行的，并且基于自由运行光源的占空比和/或重复率来选择帧率。在一个或多个实施方案中，基于图像序列的帧率来选择光发射器的占空比和/或重复率，使得连续图像(或在序列中具有特定间隔的一对图像)包括光发射器的交替亮水平和暗水平，和/或交替波长。例如，帧率可以是预定的，并且光发射器例如基于来自相机设备的触发信号而与帧率同步。

在步骤203中，基于图像序列上的局部光变化模式，检测场景中的光源。具体地，来自光源的对象反射光或频闪光引起由相机设备的光学传感器接收的光强度和/或波长的改变，从而导致图像序列上的局部光变化模式。在一个或多个实施方案中，调整光源强度以控制在每幅图像中发现局部光变化模式的位置的大小。例如，位置大小可以被限制为FOV的水平和垂直尺寸的百分比(例如，1％，3％等)。在一个或多个实施方案中，定义位置和大小，在该位置和大小中，相机设备的光学传感器识别出的连续图像中交替亮水平和暗水平和/或交替波长之差超过预定阈值。在一个或多个实施方案中，该位置被称为光源在图像中的位置。

在一个或多个实施方案中，通过减去对应像素的强度和/或波长值来比较图像序列中的一对图像。具体地，强度和/或波长值由光学传感器产生。例如，强度值可以对应于单色CMOS(互补金属氧化物半导体)传感器的像素输出值。在另一示例中，可以分析RGBCMOS传感器的输出值以确定每个像素的波长值。特别地，从另一图像中的相应像素的强度和/或波长值中减去一幅图像中的像素的强度和/或波长值以生成减法结果。选择在减法结果中发现交替的亮水平和暗水平和/或交替波长的差异的像素作为光源在图像中的位置的一部分。根据光源的占空比/重复率与图像序列的帧率的关系，这对图像可以是连续图像，也可以是被特定数量的图像分开的两幅图像，例如每三幅图像等。

在一个或多个实施方案中，从局部光变化模式提取对象识别码以从场景内的多个光源识别光源。在一个或多个实施方案中，分析局部光变化模式以检测预定的头部模式。一旦检测到，则遵循预定的头部模式的模式被提取作为识别特定光源或对象的独特代码。在一个或多个实施方案中，独特代码具有用于对对象识别码进行定界(de-limit)的数字比特的预定长度或数量。在其他实施方案中，可以基于其他准则来对对象识别码进行定界。

在一个或多个实施方案中，在场景内的多个对象被同时跟踪，其中每个对象与具有独特的对象识别码的单个光源附接。换句话说，在图像序列上的多个位置处发现多个光变化模式，其中每个光变化模式包括与其他光变化模式的任何对象识别码不同的独特的对象识别码。因此，基于各自的光变化模式，将每个光源识别为与其他光源不同。因为每个光源都与它所附接的对象唯一关联，所以每个对象会根据相应的对象识别码在图像序列上进行单独跟踪。

在一个或多个实施方案中，通过迭代步骤202至204来检测和识别多个光源。例如，每个迭代可以基于由用户输入指定的特定对象识别码。在一个或多个实施方案中，来自图像序列的图像被呈现给用户界面窗口，其中用户可以通过点击或以其他方式选择多个检测到的光源之一来选择对象。一旦被选择，则被选择的光源的对象识别码被用于确定与被选择的对象相对应的被选择的光源的位置。因此，在步骤205至步骤209中，跟踪所选择的对象以继续进行图像捕获。用户可以不时使用用户界面来选择不同的对象，一旦将所跟踪的对象切换为不同的对象，使用新选择的光源的不同的对象识别码来确定与新选择的对象相对应的新选择的光源的位置。因此，在步骤205至步骤209中，跟踪新选择的对象以继续进行图像捕获。

在步骤204中，分析图像序列以确定检测和识别的光源在至少一幅图像中的位置以及光源在图像序列上的运动。在一个或多个实施方案中，基于相机设备的光学传感器识别出的图像序列中的交替的亮水平和暗水平和/或交替波长之差超过预定阈值的位置来确定光源的位置。在一个或多个实施方案中，基于图像序列上的位置的变化率来确定光源的运动。

在步骤205中，响应于检测和识别光源，将光源的位置和至少一幅图像中的目标位置进行比较以产生结果。在一个或多个实施方案中，结果包括该位置和目标位置之间的位移。在一个或多个实施方案中，在微调由控制信号引起的调整量时考虑运动参数。在一个或多个实施方案中，位移可以在图像序列中从一幅图像到另一幅图像变化，指示该对象是对象。在这样的实施方案中，例如，从一幅图像到下一图像的位移随时间的变化率被计算为运动参数。

在步骤206中，基于用于定向相机设备的结果生成控制信号。在一个或多个实施方案中，控制信号被配置为在与位移相反的方向上调整相机镜头的方向。在一个或多个实施方案中，控制信号被配置为在与位移相反的方向上调整相机相对于场景的相对位置。在一个或多个实施方案中，在微调由控制信号引起的调整量时，应考虑运动参数。在一个或多个实施方案中，控制信号被配置为在后期制作阶段期间调整图像的裁剪区域，以使运动对象与裁剪的图像内的目标位置基本对准。

在步骤207中，将控制信号发送到安装有相机设备的相机设备固定器(例如，相机手持手柄、倾斜和旋转设备、相机固定器、保持相机设备的移动平台等)。因此，在与位移相反的方向上调整相机镜头的方向或相机设备的相对位置。

在步骤208中，在相机设备的FOV内检测目标位置和光源之间的基本对准。特别地，基本对准是在与位移相反的方向上调整相机镜头的方向或相机设备的相对位置的结果。

在步骤209中，响应于检测基本对准，捕获场景的附加图像。在一个或多个实施方案中，相机设备以规则的重复率(即，帧率)连续地捕获并输出连续的图像。在这样的实施方案中，被分析以生成控制信号的图像序列受到在附加图像之前的滚动时间窗口限制(例如，2个连续图像、5个连续图像、10个连续图像等的滚动序列)。随着时间的流逝，附加图像成为图像更新序列的一部分，用于生成更新的控制信号以连续跟踪FOV中的对象。

在一个或多个实施方案中，被分析以生成控制信号的图像序列被指定为控制信息，而不由相机设备输出。例如，图像序列可以是IR图像。相反，其中光源(因此对象)与目标位置基本对准的附加图像由相机设备输出。例如，附加图像可以是可见光图像，而控制信息(即，IR图像)可以与附加图像分开存储，直到被丢弃或以其他方式从相机设备中移除为止。

在步骤210中，确定是否继续图像捕获。如果确定为肯定，即，将继续图像捕获，则该方法进行至步骤211。如果确定为否定，即，将不继续图像捕获，则该方法结束。

在步骤211中，通过跟踪相同的对象或通过跟踪不同的对象来确定是否继续图像捕获。如上所述，步骤211中的确定可以基于在导致步骤211的步骤202至209的迭代期间接收到的用户输入。如果确定指示通过跟踪相同的对象来继续图像捕获，则该方法返回步骤202。如果确定指示通过跟踪不同的对象来继续图像捕获，则该方法返回到步骤203。

图3.1、3.2、3.3、4、5、6.1、6.2和6.3示出了根据本发明的一个或多个实施方案的各种示例。图3.1、3.2、3.3、4、5、6.1、6.2和6.3所示的示例可以是例如基于以上图1.1和1.2中描述的一个或多个组件方法和以上图2.1和2.2中描述的方法流程图。在一个或多个实施方案中，图3.1、3.2、3.3、4、5、6.1、6.2和6.3中所示的模块和元件中的一个或多个可以被省略、重复和/或替换。因此，本发明的实施方案不应被认为限于图3.1、3.2、3.3、4、5、6.1、6.2和6.3所示的模块的特定布置。

图3.1示出了电动相机移动设备支架(stand)210，作为以上图1.1中所示的相机设备固定器(holder)130的示例。另外，由电动相机移动设备支架210机械地保持的相机移动设备201(例如，具有相机镜头220的智能手机)是以上图1.1所示的相机设备110的示例。在本发明的一个或多个实施方案中，电动相机移动设备支架210是机电组件，其包括固定器(holder)221、倾斜轴203、U-托架(bracket)204、旋转轴209和支架(stand)222。固定器221被构造成机械地保持相机移动设备201并且机械地联接至倾斜轴203。支架222被配置为在放置在固体表面上时保持电动相机移动设备支架210的机械稳定性。尽管未明确示出，但是U-托架204容纳耦合至倾斜轴203的倾斜电机、耦合至旋转轴209的旋转电机、以及被配置为与图1.1中描述的相机设备110和/或跟踪控制器120通信的通信接口。例如，通信接口可以基于蓝牙、NFC、USB、或其他无线/有线通信接口。在一个或多个实施方案中，响应于经由通信接口从跟踪控制器120接收到的控制信号，旋转轴209可通过旋转电机绕旋转轴209-1旋转。类似地，响应于经由通信接口从跟踪控制器120接收到的控制信号，倾斜轴203可通过倾斜电机绕倾斜轴203-1旋转。响应于使固定器221围绕倾斜轴203-1倾斜和/或使固定器221与倾斜轴203和托架204一起围绕旋转轴209-1旋转，可以调整相机镜头220的方向。因此，根据相机镜头220的方向来调整相机镜头220的FOV 220-1。

图3.2示出了作为以上图1.1所示的相机设备固定器130的示例的相机移动设备手持式手柄800。另外，由相机移动设备手持式手柄800机械地保持的相机移动设备201(例如，具有相机镜头220的智能手机)是以上图1.1中描绘的相机设备110的示例。在本发明的一个或多个实施方案中，相机移动设备手持式手柄800是一种机电组件，包括固定器221、倾斜轴203、倾斜电机213、旋转轴209、旋转电机219和手持式手柄222。固定器221被构造成机械地保持相机移动设备201并机械地联接至倾斜轴203。手持式手柄222被配置为在被观看者手持时保持相机移动设备手持式手柄800的机械稳定性。尽管未明确示出，但是手持式手柄222包括通信接口，该通信接口被配置为与以上图1.1所示的相机设备110和/或跟踪控制器120通信。例如，通信接口可以基于蓝牙、NFC、USB、或其他无线/有线通信接口。在一个或多个实施方案中，旋转轴209响应于经由通信接口从跟踪控制器120接收到的控制信号，由旋转电机219绕旋转轴209-1旋转。类似地，倾斜轴203响应于经由通信接口从跟踪控制器120接收到的控制信号而由倾斜电机213绕倾斜轴203-1是可旋转的。响应于使固定器221围绕倾斜轴203-1倾斜和/或使固定器221与倾斜轴203和倾斜电机213一起围绕旋转轴209-1，可以调整相机镜头220的方向。因此，根据相机镜头220的方向来调整相机镜头220的FOV 220-1。尽管在图3.2中示出的示例是基于与两个机械轴相关联的两个电机，其他示例可以是基于与三个机械轴相关联的三个电机，而不脱离本发明的范围，其中第三电机可以是附加的旋转电机，例如带有图3.3所示的附加旋转轴209-2的附加的旋转电机331。具体地，图3.3示出了具有三个电机的相机移动设备手持式手柄800，作为如以上图1.1中所示的相机设备固定器130的示例。

图4示出了以上图1.1和1.2所示的光源，例如，光源A 143a、光源B 143b的光变化模式124的示例。如图4所示，水平轴对应于时间，垂直轴对应于光强度。特别是，光变化模式124是随着时间在亮水平(brightlevel)400a和暗水平(darklevel)400b之间交替的光强度的模式。例如，光强度的亮水平400a在时间段A 410上维持，并且可以一定的重复率随时间重复出现。当光强度随时间在亮水平400a和暗水平400b之间交替时，相机设备会定期捕获图像序列。例如，可以在彼此分开时间段B 420、时间段C 430，等的时间点A 401a、时间点B401b、时间点C 401c等处捕获序列中的连续图像。具体而言，时间段A 410包含至少一幅图像捕获时间点，例如时间点B 401b。在时间点A 401a捕获的暗水平400b，在时间点B 401b捕获的亮水平400a，在时间点C 401c捕获的暗水平400b等的交替序列形成了相机设备捕获的上述局部光变化模式。尽管在图4中描绘的光变化模式124是光强度变化的模式，但是在其他示例中，光变化模式124也可以包括波长变化。换句话说，亮水平400a和暗水平400b可以用不同的波长代替或补充以表示波长变化。

图4所示的光变化模式124可以沿着时间轴在时间点序列和图像序列上扩展以定义对象识别码。例如，对象识别码A 402a和对象识别码B 402b在以下图4使用不同的时标的光变化模式124中示出。在一个或多个实施方案中，每幅图像中的光强度水平和/或波长值定义了数字数据位。在其他实施方案中，光强度水平和/或波长值在多个重复出现的图像集中的每幅图像集中都是恒定的，其中每幅图像集对应于一个数字数据位。换句话说，数字数据位可以对应于单幅图像或图像集。在对象识别码A 402a和对象识别码B 402b的每一个中，不同的数字数据位模式(pattern)由头401和尾403界定。例如，头401和尾403可各自包含8个连续的“零”数字数据位。插入在头401和尾403之间的对象识别码A 402a包括数字数据位模式“1010101010101010”，而对象识别码B 402b包括数字数据位模式“1010010101011010”。因此，数字数据位模式“1010101010101010”和数字数据位模式“1010010101011010”用于识别或选择附接到以上图1.1和1.2中描绘的场景140内的两个不同对象的两个不同光源。

图5示出了以上图1.1和1.2中描绘的场景140的图像序列126的示例。如图5所示。图像序列126包括在以上图4描述的时间点A 401a、时间点B 401b、时间点C 401c等捕获的图像A 126a、图像B 126b、图像C 126c等。根据参考以上图4描述的光变化模式124的示例，光源，例如，光源A 143a、光源B 143b在图像A 126a、图像B 126b、图像C 126c等中标记为“a1”或“a2”的位置处显示为交替的暗点和亮点。相反，光强度在图像A 126a、图像B 126b、图像C 126c等中标记为“b”的另一个位置基本保持恒定。例如，可以通过减去图像A 126a和图像B 126b中的对应像素的强度值来确定标记为“a1”的位置以生成减法结果126d。类似地，可以通过减去图像B 126b和图像C 126c中的对应像素的强度值以生成减法结果126d来进一步确定标记为“a1”的位置。在减法结果126d中，黑色表示无差异，而白色表示非零差异或超过上述预定阈值的差。因此，光源(例如，光源A 143a)的位置对应于减法结果126d中的白点。在另一示例中，可以类似方式确定标记为“a2”的位置，以检测图像内不同光源(例如，光源B 143b)的位置。

进一步如图5所示，将每幅图像的中心定义为目标位置127。因此，从标记为“a1”的位置到目标位置127的距离对应于位移125。图5所示的标记为“a1”的位置、目标位置127和位移125分别是以上图1.2所描述的位置A 127a、目标位置127和位移125的示例。在一个或多个实施方案中，标记为“a1”的位置在图像A 126a、图像B 126b、图像C 126c等之间变化。标记为“a1”的位置在图像A 126a、图像B 126b、图像C 126c等上的变化率对应于以上图1.2所示的运动参数128。尽管未明确示出，但是在不同示例中，位移125和/或运动参数128也可以对应于标记为“a2”的位置。

图6.1示出了参考以上图1.2和4描述的图像序列126和光变化模式124的示例。在示例场景中，目标位置是图像的中心。如图6.1所示，当以上图4中所示的对象识别码A 402a被用于对象跟踪时，在图像序列126中的图像(例如，图像A 126a)的左侧部分的位置处识别光源A 143a。特别地，光源A 143a是包含在男性(即，对象A 142a)佩戴的指环或腕带部分中的反光材料。例如，基于以上图5所示的图像A 126a、图像B 126b、图像C 126c等中的交替的暗点和亮点“a1”来识别光源A 143a的位置。特别的，图像A 126a、图像B 126b、图像C 126c等中的交替的暗点和亮点“a1”展示出定义与光源A 143a关联的对象识别码A 402a的时间和/或空间变化。因为目标位置(即，图像中心)在光源位置的右侧，所以对象跟踪控制器120被配置为将相机设备110朝向左侧定向，使得男性(即，持有/穿戴光源A 143a的对象A142a)出现在图像的中心。因此，使用对象识别码A 402a，基于所识别的光源A 143a的位置“a1”来调整相机设备110的方向，使得对象A 142a出现在图像X 126x的中央。

进一步如图6.1所示，当图4中描绘的对象识别码B 402b被用于对象跟踪时，在图像序列126中的图像(例如，图像A 126a)的左侧部分的位置处识别光源B 143b。特别地，光源B 143b是女性(即，对象B 142b)佩戴的指环或腕带的一部分。例如，基于图像A 126a、图像B 126b、图像C 126c等中的交替的暗点和亮点“a2”来识别光源B 143b的位置，如以上图5所示。特别地，图像A 126a、图像B 126b、图像C 126c等中的交替的暗点和亮点“a2”表现出定义与光源B 143b相关联的对象识别码B 402b的时间和/或空间变化。因为目标位置(即，图像中心)在光源位置的右侧，所以跟踪控制器120被配置为将相机设备110朝向左侧定向，使得持有/穿戴光源B 143b的女性(即，对象B 142b)出现在图像的中心。因此，使用对象识别码B 402b，基于光源B 143b的识别出的位置“a2”来调整相机设备110的朝向，以使对象B142b出现在图像X 126x的中央。通过将具有不同的对象识别码的不同光源附接到场景中的多个对象，可以方便地在场景中的不同对象之间切换对象跟踪。例如，如上所述，当将跟踪的对象从男性切换到女性时，录像可以继续而不会中断。在一个或多个实施方案中，光源A143a和光源B 143b是IR光源，并且图像序列126是IR图像。相反，图像X 126x是基于可见光的静态照片或录像的视频帧。换句话说，光源A 143a和光源B 143b在图像X 126x中不可见。

为了改善对象跟踪的精度，除了基于图像A 126a、图像B 126b、图像C 126c中的交替的暗点和亮点检测反射光源143的位置以外，如以上图5中所示，交替的暗点和亮点的几何形状基于匹配于男性(即，对象142)所戴的指环或腕带的一部分中包含的反射材料的几何形状来限定。换句话说，在识别反射光源143时，图像A 126a、图像B 126b、图像C 126c等中与反射图案的几何形状不匹配的任何交替的暗点和亮点被排除在外。

图6.2示出了参照以上图1.2描述的动态模型145和感兴趣区域146的示例。在图6.2中描绘的示例场景中，图像A 125a是用于检测和定位光源A 143a的IR图像序列的一部分。光源A 143a是从男性(即对象A 142a)脖子周围发射IR光的悬垂物。动态模型145包括节点，例如代表头部元素的节点621、代表颈部元素的节点622、代表左骨盆元素的节点623、代表左脚踝元素的节点624、代表右手腕元素的节点625、代表右肘元素的节点626、代表右肩元素的节点627，等等。动态模型145还包括连接身体元素的链接，例如颈部链接623a连接头部元素(即，节点621)和颈部元素(即，节点622)。如上所述，由动态模型145指定的长度范围和角度范围定义了诸如头部元素(即，节点621)、右手腕元素(即，节点625)等身体元素的运动范围。因此，基于检测到的光源A的位置143a，头部元素相对于颈部元素的运动范围以及头部元素的尺寸范围，生成头部元素可能位置的概率图。例如，概率图显示头部元素可能位于概率超过90％的感兴趣区域A 146a内；在另一个示例中，任何右手手指或整个右手上肢很可能位于概率超过90％的感兴趣区域B 146b内。

以下图6.3中示出了另外的示例性感兴趣区域C 146c。图6.3基本上与图6.2相同，其中为了清楚起见，省略了感兴趣区域A 146a和感兴趣区域B 146b。如图6.3所示，感兴趣区域C 146c是三个感兴趣区域的总和，分别表示为147a、147b和147c。每个感兴趣区域147a、147b和147c基于检测到的光源A 143a的位置，并且如果对象A 142a处于站姿、跪姿和蹲姿中每一个时，对应于脚踝元素可能定位的位置。在示例场景中，对象A 142a的姿势是未知的，并且是50％的可能是站姿，10％的可能是跪姿和40％的可能是蹲姿。因此，脚踝位于感兴趣区域C 146c内的概率由于姿势不确定性而变化。在针对感兴趣区域C 146c的相应概率图中指定了这种概率变化。尽管概率图和感兴趣区域的示例显示为圆形、椭圆形和矩形，但是这些特定形状仅用于说明，其他形状也是可能的。本发明的实施方案可以在计算系统上实现。可以使用移动设备、台式机、服务器、路由器、交换机、嵌入式设备或其他类型的硬件的任何组合。例如，如图7.1所示，计算系统700可以包括一个或多个计算机处理器702、非持久性存储器704(例如，易失性存储器，诸如随机存取存储器(RAM)、高速缓存存储器)、持久性存储器706(例如，硬盘，诸如光盘(CD)驱动器或数字多功能盘(DVD)驱动器之类的光盘驱动器、闪存等)、通信接口712(例如，蓝牙接口、红外接口、网络接口、光接口等)以及许多其他元件和功能。

计算机处理器702可以是用于处理指令的集成电路。例如，一个或多个计算机处理器可以是处理器的一个或多个核心或微核心。计算系统700还可以包括一个或多个输入设备710，例如触摸屏键盘鼠标麦克风触摸板电子笔或任何其他类型的输入设备。

通信接口712可以包括用于将计算系统700连接到网络(未示出)(例如，局域网(LAN)，例如互联网、移动网络或任何其他类型的网络)和/或连接到另一个设备，例如另一个计算设备。

此外，计算系统700可以包括一个或多个输出设备708，例如屏幕(例如，液晶显示器(LCD)、等离子显示器、触摸屏、阴极射线管(CRT)监视器)、投影仪或其他显示设备)、打印机、外部存储设备或其他任何输出设备。一个或多个输出设备可以与输入设备相同或不同。输入和输出设备可以本地或远程地连接到计算机处理器702、非持久性存储器704和持久性存储器706。存在许多不同类型的计算系统，并且前述输入和输出设备可以采取其他形式。

用于执行本发明的实施方案的计算机可读程序代码形式的软件指令可以全部或部分地临时或永久地存储在非暂时性计算机可读介质上，例如CD、DVD、存储设备、软盘、磁带、闪存、物理内存或任何其他计算机可读存储介质。具体地，软件指令可以对应于计算机可读程序代码，其在被处理器执行时被配置为执行本发明的一个或多个实施方案。

图7.1中的计算系统700可以连接到网络或成为网络的一部分。例如，如图7.2所示，网络720可以包括多个节点(例如，节点X722、节点Y724)。每个节点可以对应于计算系统，使得图7.1中所示的计算系统或者组合的一组节点可以对应于图7.1中所示的计算系统。举例来说，本发明的实施方案可以在连接到其他节点的分布式系统的节点上实现。作为另一示例，本发明的实施方案可以在具有多个节点的分布式计算系统上实现，其中本发明的每个部分可以位于分布式计算系统内的不同节点上。此外，前述计算系统700的一个或多个元件可以位于远程位置并通过网络连接到其他元件。

尽管未在图7.2中示出，该节点可以对应于服务器机箱中的刀片，该刀片服务器通过底板连接到其他节点。作为另一示例，该节点可以对应于数据中心中的服务器。作为另一示例，该节点可以对应于具有共享存储器和/或资源的计算机处理器或计算机处理器的微核。

网络720中的节点(例如，节点X722、节点Y724)可以被配置为为客户端设备726提供服务。例如，节点可以是云计算系统的一部分。所述节点可以包括以下功能：从客户端设备726接收请求并且将响应发送到客户端设备726。客户端设备726可以是计算系统，例如图7.1中所示的计算系统。此外，客户端设备726可以包括和/或执行本发明的一个或多个实施方案的全部或一部分。

在图7.1和7.2中描述的计算系统或一组计算系统可以包括执行本文公开的各种操作的功能。例如，一个或多个计算系统可以在相同或不同系统上的进程之间执行通信。采用某种形式的主动或被动通信的各种机制可以促进同一设备上进程之间的数据交换。代表这些进程间通信的示例包括但不限于文件、信号、套接字、消息队列、管道、信号灯、共享内存，消息传递和内存映射文件的实现。

图7.1中的计算系统可以实现和/或连接到数据存储库。例如，一种类型的数据存储库是数据库。数据库是为简化数据检索、修改、重组和删除而配置的信息的集合。数据库管理系统(DBMS)是一个软件应用程序，它为用户提供了定义、创建、查询、更新或管理数据库的界面。

用户或软件应用程序可以向DBMS提交语句或查询。然后，DBMS解释该语句。该语句可以是用于请求信息的选择语句、更新语句、创建语句、删除语句等。此外，该语句可以包括指定数据或数据容器(数据库、表、记录、列、视图等)的参数、标识符、条件(比较运算符)、函数(例如，联接、完全联接、计数、平均等)、排序(例如，升序、降序)或其他。DBMS可以执行该语句。例如，DBMS可以访问存储缓冲区，引用或索引文件以进行读取、写入、删除或其任何组合，以响应该语句。DBMS可以从持久性或非持久性存储中加载数据，并执行计算以响应查询。DBMS可以将结果返回给用户或软件应用程序。

以上对功能的描述仅呈现了由图7.1的计算系统和图7.1和图7.2中的节点和/或客户端设备执行的功能的一些示例。可以使用本发明的一个或多个实施方案来执行其他功能。

虽然已经用有限数量的实施方案描述了本发明，但是受益于本发明的本领域技术人员将理解，可以设计出不脱离所公开的本发明的范围的其他实施方案。因此，本发明的范围应仅由所附权利要求书限制。

Claims

1.一种分析场景中对象的方法，包括：

使用相机设备，捕获包括附接到对象中包含的多个元素中的第一元素的光源的场景图像序列；

通过硬件处理器基于所述图像序列上的局部光变化模式，检测所述场景中的光源；

通过所述硬件处理器，确定所述光源在所述图像序列的至少一幅图像中的位置；

通过所述硬件处理器基于所述光源的位置和所述对象的动态模型，生成用于分析所述对象的感兴趣区域；以及

基于所述感兴趣区域生成所述对象的分析结果，其中基于所述分析结果执行预定任务。

2.根据权利要求1所述的方法，

其中，所述动态模型包括表示选自由所述对象的头部元素、颈部元素、骨盆元素、膝盖元素和脚踝元素的组中至少一个的节点，以及

其中，通过将选自由面部表情识别算法和手势识别算法组成的组中的至少一个应用于所述感兴趣区域来执行所述预定任务。

3.根据权利要求2所述的方法，

其中，所述动态模型描述了所述多个元素之间的机械连接，

其中，所述光源在至少一幅图像中的位置与所述场景中第一元素的位置相对应，以及

其中生成所述感兴趣区域包括：

基于所述机械连接，确定所述多个元素中的第二元素相对于第一元素的范围限制，以及

基于所述光源的位置和所述范围限制，确定所述场景中第二元素的位置的概率图。

4.根据权利要求2所述的方法，其中，生成所述分析结果包括：

基于所述至少一幅图像和所述感兴趣区域，生成所述场景的背景图像，

其中，至少基于所述背景图像执行所述预定任务。

5.根据权利要求3所述的方法，其中，产生所述分析结果包括：

基于所述概率图，选择所述至少一幅图像的一部分对应于选自由所述对象的面部和手部组成的组中的至少一个；以及

分析所述至少一幅图像的一部分，以确定从所述对象的面部表情和手势组成的组中选择的至少一个，

其中，所述对象包括选自由人、动物和机器人组成的组中的至少一个，

其中所述第二元素对应于选自由所述对象的面部和手部组成的组中的至少一个，以及

其中，基于选自由面部表情和手势组成的组中的至少一个来执行所述预定任务。

6.根据权利要求1所述的方法，还包括：

响应于检测所述光源，将所述光源在所述至少一幅图像中的位置与在所述至少一幅图像中的目标位置进行比较以产生比较结果；以及

基于所述比较结果，生成控制信号以发送到安装有相机设备的固定器设备，

其中，所述对象包括运动对象，以及

其中，所述控制信号使所述固定器设备移动以将所述光源与所述目标位置基本对准，以连续跟踪运动对象。

7.根据权利要求1所述的方法，还包括：

响应于检测所述光源，基于所述光源在至少一幅图像中的位置确定裁剪区域，

其中，所述对象包括运动对象，以及

其中，所述裁剪区域用于生成裁剪的图像，从而使所述运动对象与所述裁剪的图像内的目标位置基本对准。

8.根据权利要求1所述的方法，

其中，所述光源是选自由附接到所述第一元素的本地光发射器和响应与所述对象分离的远程光发射器而发出对象反射光的第一元素的反射区域组成的组中的至少一个，

其中，所述图像序列上的局部光变化模式是通过选自由本地光发射器、远程光发射器和所述反射区域的几何反射图案组成的组中的至少一个产生的，以及

其中，所述局部光变化模式包括选自由光强度变化、光波长变化、光强度变化的重复率和光波长变化的重复率组成的组中的至少一个。

9.根据权利要求1所述的方法，其中，所述光源被配置为生成对象识别码，所述方法还包括：

从所述局部光变化模式中提取对象识别码；以及

基于所述提取的对象识别码，从与所述场景中的多个对象相关联的多个光源中识别检测到的光源，以从所述多个对象中选择对象。

10.一种跟踪控制器，包括：

计算机处理器；和

存储器，其耦合到计算机处理器并存储指令，在被执行时，使计算机处理器执行以下操作：

使用相机设备捕获包括附接到包含在对象中的多个元素中的第一元素的光源的场景图像序列；

基于图像序列上的局部光变化模式，检测所述场景中的光源；

确定所述光源在所述图像序列的至少一幅图像中的位置；以及

基于所述光源的位置和所述对象的动态模型，生成用于分析所述对象的感兴趣区域。

11.根据权利要求10所述的跟踪控制器，所述指令在被执行时还使所述计算机处理器执行以下操作：

12.根据权利要求11所述的跟踪控制器，

其中，所述动态模型描述了所述多个元素之间的机械连接，

其中，光源在所述至少一幅图像中的位置与所述场景中第一元素的位置相对应，以及

其中生成所述感兴趣区域包括：

13.根据权利要求11所述的跟踪控制器，其中，生成所述分析结果包括：

其中，至少基于所述背景图像执行所述预定任务。

14.根据权利要求12所述的跟踪控制器，其中，生成所述分析结果包括：

其中，所述动态模型包括表示选自由所述对象的头部元素、颈部元素、骨盆元素、膝盖元素和脚踝元素的组中至少一个的节点，

15.根据权利要求10所述的跟踪控制器，所述指令在被执行时还使所述计算机处理器执行以下操作：

其中，所述对象包括运动对象，以及

16.根据权利要求10所述的跟踪控制器，所述指令在被执行时还使所述计算机处理器执行以下操作：

其中，所述对象包括运动对象，以及

17.根据权利要求10所述的跟踪控制器，

其中，所述图像序列上的局部光变化模式是通过选自由本地光发射器、远程光发射器和所述反射区域的几何反射图案组成的组中的至少一个生成的，以及

18.根据权利要求10所述的跟踪控制器，其中，所述光源被配置为生成对象识别代码，所述指令在被执行时还使所述计算机处理器执行以下操作：

从所述局部光变化模式中提取所述对象识别码；以及

基于提取的对象识别码从与所述场景中的多个对象相关联的多个光源中识别检测到的光源，以从多个对象中选择对象。

19.一种用于分析场景中的对象的系统，包括：

光源，其被附接到对象中包含的多个元素中的第一元素上；

相机设备，其被配置为捕获场景图像序列；以及

跟踪控制器，其被配置为：

基于所述图像序列上的局部光变化模式，检测所述场景中的光源；

20.根据权利要求19所述的系统，其中，所述跟踪控制器还被配置为：

21.根据权利要求20所述的系统，

其中，所述动态模型描述了所述多个元素之间的机械连接，

其中生成所述感兴趣区域包括：

22.根据权利要求20所述的系统，其中，生成所述分析结果包括：

其中，至少基于所述背景图像执行所述预定任务。

23.根据权利要求21所述的系统，其中，生成所述分析结果包括：

24.根据权利要求19所述的系统，还包括：安装有相机的固定器设备，所述跟踪控制器还被配置为：

其中，所述对象包括运动对象，以及

25.根据权利要求19所述的系统，所述跟踪控制器还被配置为：

其中，所述对象包括运动对象，以及

26.根据权利要求19所述的系统，

27.根据权利要求19所述的系统，其中，所述光源被配置为生成对象识别码，所述跟踪控制器还被配置为：

从所述局部光变化模式中提取对象识别码；以及

28.一种非暂时性计算机可读介质，其存储用于分析场景中的对象的指令，所述指令在由计算机处理器执行时包括以下功能：

使用相机设备捕获包括附接到所述对象中包含的多个元素中的第一元素的光源的场景图像序列；

确定所述光源在所述图像序列的至少一幅图像中的位置；

基于所述光源的位置和所述对象的动态模型，生成用于分析所述对象的感兴趣区域；以及