CN101415125A

CN101415125A - 用于通信的系统和方法

Info

Publication number: CN101415125A
Application number: CNA2008101769843A
Authority: CN
Inventors: C·H·吉拉尔; M·W·A·戴维
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-09-05
Filing date: 2008-09-05
Publication date: 2009-04-22
Anticipated expiration: 2028-09-05
Also published as: US20090060321A1; GB0717275D0; JP2009077394A; GB2452510A; CN101415125B; EP2034441A1; US8355532B2

Abstract

本发明涉及一种用于通信的系统和方法，更具体地涉及用于将包含了多个位于一个平面上的对象的场景的表示传输给一个或者多个客户设备的系统，该系统包括图像处理装置，可操作用于接收场景的视频图像，用于处理获得的视频图像从而从每一个对象中提取一个或者多个图像特征，用于将该一个或者多个图像特征与来自可能示例对象的预定组的样本图像特征进行比较，用于根据该图像特征与该可能示例对象的预定图像特征的比较来识别对象，用于为每一个对象产生对象路径数据；并且提供已识别对象在平面的三维模型上相对于时间的位置；用于计算投影矩阵，以及分配服务器，可操作用于接收对象路径数据和投影矩阵，从而将它们分配到一个或者多个客户端设备。

Description

用于通信的系统和方法

技术领域

本发明涉及一种用于将包括多个位于同一平面上的对象的场景的三维表示传输给一个或者多个客户装置的系统和方法，该三维表示是从由视频照相机所捕获的场景的一个或多个视频图像中产生的。

背景技术

随着通信技术的发展，例如无线接入网络(WiFi，UMTS，3G)，现在例如移动电话之类的客户装置能够接收到视频图像。可以利用因特网协议通过国际互联通信网来传输视频图像，其适应于使用服务质量来确保低延时和可预测因特网协议包不稳定性以及包丢失。以这种方式流送视频图像是已知的，如因特网协议电视(IPTV)。但是，通过因特网通信链接流送视频图像存在一个技术挑战，由于因特网通信的一个特性是能够提供对通信带宽的约束，其可以用于流送视频并且可能因为IP包丢失而引起数据的丢失。

广播现场事件也存在一个技术挑战，由于用于压缩事件的编码视频信号的可利用时间是有限的。此外，当用户观看实时或非实时产生的视频图像时，其期望尽可能提供用户对事件的欣赏的改进。为了改进用户对从视频图像中观看的事件的体验时，可以使用多个环绕运动场放置的照相机从而以不同位置和角度来观看事件。此外，所谓的运动员摄像机(cams)被用于集中捕获特定运动员的动作。但是，布置多个摄像机从而覆盖一个事件是非常昂贵的并且此外将每一个摄像机产生的图像结合是一个复杂的任务。此外，无论使用多少摄像机，都存在需要从没有摄像机的位置观看事件的需求。

因此，可以认识到使用有限的通信带宽将显示现场事件，如体育事件的视频图像传输给客户端设备是一个技术难题。

发明内容

在第一方面，提供一种用于将包含了多个位于一个平面上的对象的场景的表示传输给一个或者多个客户设备的系统。该表示是由视频摄像机获得的场景的一个或者多个视频图像产生的。该系统包括图像处理装置，可操作用于接收从视频摄像机接收的场景的视频图像，该场景包括在该平面上的对象的视图，用于处理获得的视频图像从而从每一个对象中提取一个或者多个图像特征，用于将该一个或者多个图像特征与来自视频图像包含的可能示例对象的预定组的样本图像特征进行比较，用于根据该图像特征与该可能示例对象的预定图像特征的比较来识别对象，用于为每一个对象产生识别相应对象的对象路径数据；并且提供已识别对象在视频图像中的所述平面的三维模型上相对于时间的位置；用于计算根据对象路径数据将每一个对象的位置从视频图像中的平面投影到该平面的三维模型中的投影矩阵。分配服务器可操作用于接收由图像处理装置产生的对象路径数据和投影矩阵，从而将该对象路径和投影矩阵分配到一个或者多个客户端设备。

在一个实施例中，该客户端设备可以被配置为产生场景的三维表示，其包括位于该平面上的多个对象的每一个的合成显示。在另一个实施例中，该客户端设备可以被配置为接收视频图像连同目标路径数据和投影矩阵，从而利用来自分配服务器的目标路径数据和投影矩阵识别每一个目标，并且响应用户的选择，来显示一个或者多个识别的目标所在的一部分视频图像。

本发明的实施例可以提供一种配置，其中，例如运动会事件的一个事件的表示可以产生并且被传输给多个客户端设备，使得用户装置可以以三维表示再现该事件。在一些例子中，可以通过单个的摄像机来产生该视频图像，尽管可以使用多个摄像机。因此，本发明的实施例可以提供多个优点，包括：

·以一种改进的方式通过允许客户端设备改变以三维方式观看事件的相对视图，从而允许客户端设备观看事件的三维表示，例如足球比赛；

·允许客户端设备选择一种建立了三维表示的方式，包括对象的合成显示，和/或对象所处的平面的模型的表示；

·降低用于表示事件所需的信息的数量，其可以被用于通过例如移动通信网络或者互联网通信链接之类的具有有限带宽的媒体传输一个现场事件的报道；

·提供一种配置，其中客户端设备可以提取一部分具有选择的一个或者多个对象的视频图像，而无需要求提供一个摄像机来专门采集这些对象的视频图像，其由整个场景(足球比赛)的图像产生一个局部(运动员集合)视图。

本发明的实施例允许改变在产生的三维模型中的相对视图，使得在该观看点以该场景的三维模型提供观看，在真实环境中在该观看点并不存在用于获取现场场景的视频图像的摄像机。因此，该场景的三维模型提供了一个真实场景的虚拟显示，其可以用于改变该模型的观看。本发明的实施例也提供了仅仅对某个对象或者某些对象的观看，而无需提供一个摄像机专门用于从场景中获取那个或者那些对象。

本发明的其他各个方面和特征由附加的权利要求限定，其包括一种图像处理装置、一种客户端设备、一种方法和一种具有其上记载了表示计算机程序的信息信号的记录媒体的数据载体。

附图说明

现在将通过参考附图来举例描述本发明的实施例，其中：

图1是根据本发明的一个实施例的对象追踪系统的示意图；

图2是一个根据本发明的实施例的对象追踪方法的流程图；

图3A和3B是根据本发明的实施例的对象追踪的示意图；

图4是根据本发明的实施例的对象追踪的遮挡检测的示意图；

图5是根据本发明的实施例的对象追踪的遮挡检测的方法的流程图；

图6A和6B是根据本发明的实施例的对象追踪和遮挡检测的示意图；

图7示出了根据本发明的实施例的图像识别方法的流程图；

图8示出了根据本发明的实施例的图像特征的图像处理的示意图；

图9示出了根据本发明的实施例的用于计算特征向量的图像特征的图像处理的示意图；

图10是一个从一个场景中获得的视频图像的示意图，其示出了包括要被追踪的队员的足球比赛；

图11A是一个已经采用本发明的技术通过求平均处理而产生背景模型的视频图像的示意图，并且图11B示出了考虑到变化时的背景模型；

图12是一个已经采用本发明的技术处理的视频图像的示意图，从而示出了运动员的追踪位置；

图13是从两个不同的照相机获得的两个视频图像的示意图，其中的每一个照相机用于球场的每一侧，以及足球比赛的虚拟现实的示意图，其中的运动员在相应时间被追踪；

图14是一个足球比赛的视频图像的显示，其中根据本发明的技术追踪的队员被标注；

图15是一个足球比赛的虚拟模型的三维表示，其中比赛的观看可以被改变；

图16是一个用于产生足球比赛的虚拟模型的系统的示意框图，其中比赛通过可通过互联网提供给客户端设备的人工合成要素显示。

图17是一个用于给客户端设备提供产生场景的一部分视频图像的机构的系统的示意框图，其中的仅示出了部分选择的对象；

图18是一个表示图16和17中示出的系统的操作的流程的示意图；以及

图19是一个表示图17中示出的系统的操作的流程的示意图。

具体实施例

公开了对象追踪的系统和方法。在下面的描述中，为了对本发明的实施例有全面的理解，公开了许多特定细节。然而，很明显，对于本领域的技术人员来说，无需使用这些特定细节也可实施本发明。相反地，出于清楚说明实施例的目的，省略了对于本领域技术人员来说是已知的特定细节。

图1示出了按照本发明实施例的对象追踪系统的示意图。在如图1所示的实施例中，要被追踪的对象是足球场30上的足球运动员(未示出)。球场30的高清(HD)视频图像(1920 x 1080像素)由一个或多个高清摄像机捕获。尽管本发明的实施例可用于在来自多个摄像机的视频图像中追踪对象，但在一些实施例中仅使用一个摄像机。可以理解的是，高清摄像机很贵，所以仅使用一个摄像机能降低实现使用本技术的系统所需的总费用。然而，仅使用一个摄像机只能提供对象排列于其中的场景的一个二维视图。结果，追踪由视频图像表示的场景中的对象更加困难了，因为在其中一个对象遮挡另一个对象的遮挡事件更可能了。图1中示出了这样的单个摄像机20的实例，尽管如摄像机22.1和22.2所示，可以选择使用两个摄像机，每个都位于足球场的不同半场。

在图1中，视频摄像机20位于足球体育场中的固定点，并被安排将表示由摄像机20捕获的视频图像的信号传递给内容处理工作站10，后者执行图像处理及其他操作，以便追踪球场上的运动员相对于时间的位置。然后，记录表示相对于时间的运动员位置的数据，以便生成元数据和比赛统计数据，例如特定运动员在比赛场的特定部分所花费时间的长度、每个运动员奔跑了多远等等。表示相对于时间的运动员位置的数据为每个运动员形成路径数据，其涉及每个运动员在视频图像中的路径。根据足球场(对象平面)的三维模型生成路径数据，以提供与根据运动员场上位置的运动员移动相关联的信息，这种信息从(二维的)视频图像中看来不是很明显。随后，这种已产生的路径数据被用于当足球比赛的镜头通过合适的介质传送给观看者时增强观看者的观看体验，或在指导足球队时帮助教练。下面将详细描述对对象的追踪，所述对象例如是球场30上的运动员。

在本发明的实施例中，内容处理工作站10使用由、

及

联合研发的Cell处理机。Cell处理机的并行特性使得它特别适合执行计算量大的处理任务，例如图像处理、图像识别和对象追踪。然而，技术人员可以理解，任何适合的工作站和处理单元都可以用于实现本发明的实施例。

可以理解的是，根据本发明实施例的对象追踪系统和方法不必被限制为追踪足球场上的运动员。例如，可以追踪其它体育队的运动员，例如橄榄球、板球、美式足球、冰球、篮球等等。另外，根据本发明的实施例，还可以追踪如球、冰球用球或例如赛车的交通工具等等的对象。

根据本发明的技术，使用高清视频摄像机20产生的视频图像被安排用于捕获整个球场的视图，使得可以追踪球场上的运动员。因此，从摄像机20的静态位置捕获整个球场，尽管如上所述，为了捕获整个球场可以使用多于一个摄像机。在一个实例中，如上所述，使用两个摄像机22.1和22.2，每个位于球场的不同半场。在这个实例中，如英国专利申请NO.0624410.7所述，每个摄像机产生的视频图像可以被内容处理工作站10结合在一起以便形成超高分辨率视频图像。在这个实施例中，在经历结合处理(stitching process)之后，摄像机集群的输出被认为是单个的超高分辨率图像。

超高清设备的优点很多，包括无需进行光学变焦并因此不必影响体育场的整体图像即能突出显示运动员的特定特征的能力。此外，由于比赛的背景是静止的及存在要追踪对象的较高屏幕分辨率，使得对象的自动追踪很容易。

现在参考图2、3和4来描述根据本发明实施例的对象追踪。

图2示出了根据本发明实施例的对象追踪方法的流程图。为了追踪对象，从已接收视频的在预定义数量的帧上实质上被检测为静止的那些部分中构造背景模型。在第一步骤S30中，对接收自摄像机20的表示足球场的视频图像进行处理，以构造图像的背景模型。构造背景模型是为了创建辅助识别和追踪单个运动员的前景屏蔽(mask)。在步骤S30，为了建立背景模型，通过为每个像素确定连续帧之间的像素均值及像素值方差来形成背景模型。因此，在连续帧中像素均值不做大的改变，随后为了识别前景屏蔽，可以将这些像素识别为背景像素。

这样的背景/前景分割是图像处理领域已知的方法，本发明的技术应用了由Manzanera和Richefeu所著的、发表于2004年ICVGIP会议录的、名为“A robustand Computationally Efficient Motion Detection Algorithm Based on ∑-ΔBackground Estimation”的文章中所述的算法。然而，本发明的技术不限于这个已知技术，根据用于追踪的背景模型生成前景屏蔽的其他技术也是已知的。

可以理解的是，在视频摄像机的视场包括一些人群的情况下，背景模型中不太可能包括人群，因为他们很可能走来走去。这是不希望发生的，因为当执行对象追踪时，很可能增加Cell处理机上的处理负载，而且这也是不必要的，因为大多数体育转播公司不太可能对追踪人群中的人们感兴趣。

在本发明的实施例中，在比赛开始时构造背景模型，并且甚至能在运动员入场前完成。另外，在整个比赛中周期性地重新计算背景模型，以考虑照明条件的任何变化，例如整个比赛中都会改变的阴影。

在步骤S40，从来自摄像机的引入图像中减去背景模型以识别不同区域。因此，从该图像中减去背景模型，得到的图像用于生成每个运动员的屏蔽。在步骤S45，根据在背景模型被减去时产生的图像版本的像素值来创建阈值。通过首先确定在一系列视频图像帧上的像素均值来产生背景模型。从每个像素的均值中，可以计算来自视频图像帧的每个像素的方差。然后，每个像素的方差用于确定阈值，该阈值对于视频图像的所有像素范围中的每个像素来说是可以变化的。对于对应于部分图像的像素来说，方差高的地方，例如包括人群的部分，阈值被设置为高值，而对应于球场的图像的部分具有较低阈值，因为球场的颜色和内容始终是相同的，除了运动员出现的地方。因此，阈值将确定前景元素是否存在，并且为此相应地识别前景屏蔽。在步骤S50，基于与平均人类形态模型的关联的形态概率被用于在前景屏蔽中提取形态。此外，为了创建颜色概率屏蔽，为了识别运动员，从图像中提取颜色特征，例如从运动员衬衫的颜色中提取。因此，每队衬衫的颜色能够用于将运动员彼此区别开来。最后，内容处理工作站10依靠已知的每个足球队的队服颜色生成颜色模板。因此，需要每队衬衫的颜色、守门员及裁判员衬衫的颜色。然而，可以理解的是，可以使用其他合适的颜色模板和/或模板匹配方法。

回到图2，在步骤S50中，内容处理工作站10将每个颜色模板的每个像素与对应于运动员图像的衬衫区域的像素进行比较。随后，内容处理工作站10产生指示在颜色模板像素与所选像素之间相似性的概率值，以便基于色度饱和值(HSV)色彩空间中的距离来形成颜色概率，该色彩空间来自球队和球场颜色模型。另外，形态概率用于定位运动员，该形态概率基于与平均人类形态模型的关联。此外，移动概率基于与位置的距离，该位置通过使用开始位置、速度及加速度参数的递归最小平方估算器推算得出。

图3A示出了运动员屏蔽的创建过程。图3A示出了由视频摄像机20产生的足球场30的摄像机视图210。就像已经说明过的，球场30形成了背景模型的一部分，同时如上所述，运动员230、232、234、236、238、240形成了前景屏蔽的一部分。运动员的边界方框(bounding box)以每个运动员周围的虚线示出。

至此，对于摄像机图像处理，已执行步骤S30、S40、S45和S50。已设计前景屏蔽后，在首先对运动员轨迹排序之后，在步骤S55中通过接近摄像机来执行运动员追踪。因此，为了从追踪过程中除去这些运动员，首先处理被识别为离摄像机最近的运动员。在步骤S60，更新运动员的位置以便于最大化形态、颜色和移动概率。在步骤S70，构造排除了已知的将要被其他更近的运动员轨迹所覆盖的图像区域的遮挡屏蔽。这确保了被其他运动员部分或全部遮挡的运动员只能与可视图像区域匹配。遮挡屏蔽提高了追踪的可靠性，因为其降低了轨迹合并(其中在遮挡事件之后，两条轨迹追随相同的运动员)的发生率。当多个目标看起来都相同时，这是个特殊问题，因为他们不能通过颜色(简单地)被区分。遮挡屏蔽允许将像素分配给附近的运动员并排除更远的运动员，阻止两条轨迹匹配相同集合的像素，从而保持了他们的单独识别。

然后，下面通过提取摄像机图像中提供的特征并将他们映射到如图3A和3B所示的三维模型上，继续追踪每个运动员的处理。因此，为了与摄像机产生的二维图像中的位置相一致，将三维位置分配给运动员，其最大化形态、颜色和移动概率。简要说明，如果已经检测到遮挡事件，则更改运动员的选择及从二维图像到三维模型上的映射。为了辅助步骤S65中从二维图像向三维模型的映射，对将要被追踪的运动员进行初始化，以使得形态及颜色概率中的峰值映射到最适合的运动员选取。要强调的是，步骤S65中执行的初始化仅执行一次，典型地在追踪过程开始的时候执行一次。为了对系统进行好的初始化，运动员应该适当分开。初始化之后，根据本发明的技术，运动员追踪中的任何错误都会被自动更正，其不需要人工干涉。

为了实现在来自二维图像位置的三维模型中的追踪，通过使用投影矩阵P进行转换。追踪需要二维图像位置与三维模型中的位置相联系。通过使用投影(P)矩阵来完成该转换。二维空间中的点等于三维空间中的线：

[\begin{matrix} x \\ y \\ 1 \end{matrix}] = [\begin{matrix} P_{00} & P_{01} & P_{02} & P_{03} \\ P_{10} & P_{11} & P_{12} & P_{13} \\ P_{20} & P_{21} & P_{22} & P_{23} \\ 0 & 0 & 0 & 1 \end{matrix}] [\begin{matrix} x' \\ y' \\ z' \\ w \end{matrix}]

二维空间中的点等于三维空间中的线，因为第三维是未知的，该第三维是离摄像机的距离，因此会作为穿越三维模型的线来相应地出现。对象(运动员)的高度可以用于确定与摄像机的距离。通过沿位于已知地面之上的固定高度(平均人类高度)的线选取点，可以获得三维空间中的点。在由摄像机校准处理进行的匹配之前，每个摄像机一次地推理地获得投影矩阵P，在摄像机校准处理中球场的物理特征(例如球场30的拐角31A、31B、31C、31D)用于确定摄像机参数，因此，其可以辅助将已识别的运动员的二维位置映射到三维模型上。使用已建立的方法，这是已知的技术。根据物理参数，投影矩阵P合并摄像机的变焦水平(zoomlevel)、光心、三维位置及三维旋转矢量(指向的地方)。

步骤S60中执行的追踪算法是可伸缩的，其能够作用于一个或多个摄像机，仅仅需要从至少一个摄像机处可以看见球场上的所有点(以足够的分辨率)。

除了颜色和形态匹配之外，步骤S60包括一过程，其中，为了以较大概率准确识别每个运动员，也包括了正在被追踪的运动员的移动。因此，根据相对运动和方向可以确定帧之间的运动员的相对运动。因此，相对运动可用于随后的帧以产生用于识别特定运动员的搜索区域。此外，如图3B所示，足球场的三维模型可以沿着到30.1、32.1、34.1、36.1、38.1、240.1的线进行扩展，所述线相对于运动员位置的图形指示定位，以反映足球场上运动员移动的相对方向。

在步骤S70，一旦三维模型中的运动员相关位置被识别，随后将该位置相应地投影回足球场的二维图像视图中，并将相对边界投影到三维模型中根据其位置识别的运动员周围。还是在步骤S70，运动员周围的相对边界随后叠加到该运动员的遮挡屏蔽。

图3B示出了足球场的虚拟模型220的平面图。在图3B所示的实施例中，运动员230、232和234(位于场地的左手边)已被内容处理工作站10识别为穿着与运动员236、238和240(位于场地的右手边)不同颜色的足球衬衫，因此指示他们属于不同队伍。以这种方式区分运动员使得在遮挡事件之后检测每个运动员变得容易一些，因为根据他们衣服的颜色可以很容易地区分彼此。

回头参考图2，在步骤S60，使用例如卡尔曼滤波的已知技术追踪每个运动员的位置，当然使用其他合适的技术也是可以理解的。该追踪发生在摄像机视图210和虚拟模型220中。在本发明的实施例中，由内容处理工作站10使用虚拟模型220中的运动员位置来执行的速度预测被用于辅助追踪摄像机视图210中的每个运动员。

重复步骤S60和S70，直到如判定框S75所示的那样处理完所有运动员。因此，如果不是所有的运动员都被处理了，处理就转到步骤S60，反之，如果处理完成，处理就于步骤S80结束。

如图2所示，图示的方法进一步包括步骤S85，如果图像由多个摄像机产生就需要该步骤。由此，可以对来自每个摄像机的视频图像执行处理步骤S30到S80。这样可以提供给每个运动员来自每个摄像机的检测概率。因此，根据步骤S85，按照来自每个摄像机的每个运动员的概率来估算每个运动员的位置，并且根据每个摄像机提供的最大概率来估算该运动员的位置，使得每个运动员具有最大概率的位置被识别为运动员的位置。

如果已经确定在追踪足球场上运动员的过程中发生错误，那么就在步骤S90中重新初始化对该运动员的追踪。对特定运动员的检测的概率对于特定轨迹来说相对较低，就会产生追踪中的错误检测，并从而重新初始化该轨迹。

执行如图2所示的方法的结果是为每个运动员产生路径数据，其在视频图像的每个帧中提供运动员的位置，该位置表示该运动员整场比赛所走的路径。因此，路径数据提供了关于时间的位置。

遮挡追踪

如果如图4所示，一个运动员遮挡另一个运动员的整个或部分，当追踪每个运动员的位置形成单个摄像机视图时就会出现问题。

图4示出了多个运动员310、320、330和340，与他们关联的边界框如每个运动员周围的虚线所示。运动员310与340清楚的区分彼此，而运动员320遮挡了运动员330的一部分。这就是所谓的遮挡事件。当一个运动员的全部或部分遮挡至少一个其他运动员的全部或部分并使得对运动员的追踪变得模糊时，甚至在考虑其他因素(例如运动员的相对移动和方向)之后，就发生了遮挡事件。然而，可以理解，可以发生两个或更多个运动员牵涉其中的遮挡事件。

为了检测遮挡事件，如图4所示，内容处理工作站10检测与运动员有关联的屏蔽的全部或部分是否和与另一个运动员有关联的屏蔽的全部或部分出现于相同的图像区域。在遮挡事件中涉及的运动员属于对立的球队且因此而穿着不同颜色衬衫的情况下，可以很容易的区分运动员并据此追踪他们。然而，遮挡事件发生之后，如果运动员都属于同一方，内容处理工作站10可能无法区分哪个运动员是哪个，尤其是由于遮挡事件之后他们的移动(例如由碰撞导致的移动)可能无法预测并因此无法准确追踪运动员。结果，分配给每个运动员的追踪路径也许被交换了。

为了解决运动员追踪中的模糊性，内容处理工作站10为遮挡事件中涉及的所有运动员标上遮挡事件中涉及的所有运动员的身份标记。然后，在稍后如果一个或多个运动员变得易于区分，内容处理工作站10就使用这个信息将运动员的身份标识重新分配给正确的运动员，以便于保持哪个运动员是哪个的记录。参考图5详细描述该过程。

图5示出了根据本发明实施例的对象追踪及遮挡检测的方法的流程图。

在步骤S100，内容处理工作站对已捕获的视频图像执行图像处理，以便于提取参考上面图2所述的一个或多个图像特征。随后已提取的图像特征与提取自对象的可能实例的对应图像特征进行比较，以识别每个对象。在本发明的实施例中，下面参考图7和图8详细描述从衬衫上的数字识别运动员。然后，内容处理工作站为每个对象生成识别每个对象的对象标识。可选地，在本发明的实施例中，操作员通过操作员界面识别每个对象(例如运动员)。然后，内容处理工作站10使用从操作员界面输入的数据以产生对象标识数据。然而，技术人员可以理解，通过操作员可以将图像识别技术与标识结合起来以便于产生对象标识数据，或可以使用其他适合的对象标识方法，例如数字识别，该数字识别通过运动员衬衫背后的数字来识别运动员。

在步骤S105，依靠在步骤S100提取的一个或多个图像特征，内容处理工作站10检测任何将要被检测的对象，例如参考上面图2所描述的运动员。如上所述，使用虚拟模型220和摄像机视图210追踪每个运动员。内容处理工作站10使用追踪过程期间生成的数据来产生并储存路径数据，该路径数据描述了每个对象在接收到的视频图像中所走的路径。对象路径数据表现为关于时间的运动员x-y坐标的样本的形式。在本发明的实施例中，路径数据的形式为(t_i，x_i，y_i)，其中t_i是采样时间，x_i和y_i是在采样时间t_i时的对象的x和y坐标。然而可以理解，可以采用其他合适的路径数据格式。

在步骤S115，内容处理工作站10将每个对象的对象标识数据与对象路径数据一起记录，该对象路径数据涉及每个对象在视频图像中走过的路径。已记录的数据存储于内容处理工作站10的硬盘驱动器(HDD)或动态随机访问存储器(DRAM)上。这使得能记录哪个运动员与每个检测和追踪的路径相关。随后已记录的数据能够用于生成关于每个运动员以及比赛期间他们在何处的数据。例如，可以从存储于关联记录中的数据得到运动员在球场特定区域所花费的时间。此外，如果由于任何原因运动员与路径之间的关联变得模糊，例如在遮挡事件后可能发生，这种记录能被保持到如下所述地解决模糊问题为止。下面的表1示出了与对象路径数据一起的已记录对象标识数据的实例。

表1

对象ID t x y

A t₁ x₁ y₁

A t₂ x₂ y₂

A t₃ x₃ y₃

. . . .

A t_i x_i y_i

每个对象的对象标识数据和该对象的对象路径数据之间的关联允许每个对象相应地被追踪及识别。在上述实施例中，可以追踪每个运动员，因此允许转播公司了解哪个运动员是谁，即使那个运动员可能距离很远以至于无法在视觉上被操作员识别或被内容处理工作站10所执行的图像识别所识别。这允许转播公司基于该关联组合更多的、转播内容的观众可能会需要的特征及信息。显示图像视图中的追踪数据的更多的例子稍后描述。

在步骤S120，参考图4，内容处理工作站10检测参照图4所述的遮挡事件是否发生。如果没有检测到遮挡事件，处理过程就转到检测对象的步骤S105。这样，每个对象能被单独的追踪，每个对象的路径与该对象的标识唯一地关联。

然而，如果检测到遮挡事件，那么在步骤S125，Cell处理机将遮挡事件中涉及的每个对象的对象标识数据与遮挡事件中涉及的每个对象的对象路径数据关联。例如，如果两个标为A和B的对象分别与路径P和Q相关，在涉及对象A和B的遮挡事件被检测之后，路径P将会被关联到A和B，路径Q将会被关联到A和B。随后，在遮挡事件之后，如上所述地记录由内容处理工作站10产生的关联。这就允许遮挡事件中涉及的对象(例如运动员)被追踪而无需重新识别每个对象，即使关于哪个运动员是哪个存在一些不确定性。因此，降低了内容处理工作站10上的处理负载，因为仅仅那些遮挡事件中涉及的对象被模糊地识别，而遮挡事件中没有涉及的对象仍能被识别。

在步骤S130，内容处理工作站10检查看是否已识别出遮挡事件中涉及的一个或多个对象，以便能够解决与所产生路径相关联的对象的身份。内容处理工作站通过将一个或多个与该对象相关联的图像特征与提取自该对象的可能实例的图像特征进行比较，来识别至少一个所述对象。如果没有识别出，则接着处理过程带着与遮挡事件中涉及的所有那些对象相关联的每个对象的已生成路径转到步骤S105。

然而，如果检测到遮挡事件中涉及的一个或多个对象的识别已经发生，那么在步骤S135，更新已记录的路径数据，以便反映肯定已被识别的对象的身份。在上面给出的实例中，更新关联记录以便A与路径P相关联，B与路径Q相关联。

可选地，对象的标识可由操作员通过操作界面来执行，也可由内容处理工作站10使用根据本发明实施例的图像识别技术(如下所述)来执行，或通过两种技术的结合来完成。然而，可以理解，任何其他适于区分或识别每个对象的识别技术均可使用。就图像识别来说内容处理工作站10可以生成置信度(confidencelevel)，该置信度指明了由图像识别处理所做的标识有多大可能是正确的。在本发明的实施例中，标识被确定为在其中置信度高于预定义的阈值。另外，操作员可以将置信度分配给他们的标识，如果该置信度超过了预定义的阈值，那么就检测到标识。

在本发明的实施例中，事件的历史指出了已在何时更新了记录的路径数据，这也可以被存储以便于在肯定的标识证实为不正确的情况下作为备份。例如，操作员之前确信远离视频摄像机20的运动员具有特定标识，但是当该运动员离视频摄像机近一些的时候(允许用户看到运动员更高分辨率的图像)，操作员意识到他们错了，此时标识能够被证实为不正确的。如果是这样，他们可以使用操作员界面覆盖他们先前对运动员的识别，只要内容处理工作站10能够因此而更新记录的路径数据。在上面给出的实例中，标识事件历史可以与数据一起存储于内容处理工作站10的硬盘驱动器(HDD)或动态随机访问存储器(DRAM)上，该数据表示在肯定的标识之前路径P与A和B相关联及路径Q与A和B相关联。

标识事件历史也能包括在标识过程中产生的置信度。如果后来的标识由具有高于先前肯定的标识的置信度的一个置信度的对象构成，那么后来的标识的置信度可用于检验或废除先前的标识。

可以理解，在检测到遮挡事件之后，可以在遮挡事件之后的任何时间标识对象，以便消除遮挡事件中涉及的对象的模糊性。因此，在检测到遮挡事件之后，内容处理工作站10可以监控对象的肯定的标识是否作为背景处理而发生，所述背景处理与步骤S105到S125同时进行。

现在参考图7a和图7b说明根据本发明实施例的对象追踪及遮挡检测的一些实例。

在图6a所示的实例中，标识为A和B的两个对象涉及到遮挡事件410。在遮挡事件之后，如箭头所示的两个检测的对象路径都与A和B相关联(AB)。一段时间之后，肯定地将对象B标识为如AB所示的在较低路径上。该标识随后用于更新对象与路径之间的关联，以便对象A在遮挡事件410之后与较高路径相关联，对象B在遮挡事件410之后与较低路径相关联。

在图6b所示的实例中，对象A和B最初涉及到遮挡事件420。然而，在对象A和B能够肯定地被识别之前，在遮挡事件420后与A和B都相关联的在较低路径上的对象又涉及与对象C的另一个遮挡事件430。因此，在遮挡事件430之前，不清楚遮挡事件420之后在较低路径上的对象是对象A还是对象B。所以，在遮挡事件430之后，两个对象所走的较高路径和较低路径都与对象A，B和C相关联(ABC)。

一段时间之后，遮挡事件430之后较低路径上的对象肯定地被识别为对象B(ABC)。所以，更新关联记录以便遮挡事件430之后的较高路径与对象C相关联。此外，此信息可以用于更新关联记录以便能够消除遮挡事件420中涉及的两个对象的模糊性，因为遮挡事件430后对象B被明确识别为与较低路径相关联，遮挡事件430中所涉及的必定是对象B。因此，更新关联记录以便遮挡事件420后的较高路径与对象A相关联，遮挡事件420后的较低路径与对象B相关联。

所以，即使在肯定地识别对象之前也许已经发生几个遮挡事件，本发明的实施例也允许对象与对象的追踪路径相关联。此外，本发明的实施例允许对不同对象的身份相互进行交叉引用，以便允许每个路径与正确的对象相关联。

数字识别

现在参考图7说明根据本发明实施例的识别对象的方法。

图7示出了根据本发明实施例的图像识别方法的流程图。在本发明的实施例中，一种肯定地识别运动员的方法是检测并识别该运动员衬衫背后的数字。

因此，在步骤S200，参考图3、4a和4b，如上所述地检测遮挡事件中涉及的至少一个运动员的位置。在下述的实施例中，假设仅对遮挡事件中涉及的一个运动员进行图像识别，但是可以理解，当至少一个运动员位于视频摄像机20的视场中时，所述方法更通常地可适用于在任何时间检测并识别至少一个运动员。

然后，在步骤S205，提取对应于图像面积的可能区域的图像区域，其中该图像面积的可能区域对应于被检测的运动员。在本发明的实施例中，通过隔离对应于运动员的屏蔽的图像区域来完成这一步骤，所述屏蔽在图2的步骤S45生成，但是可以理解可以使用其他合适的方法。此外，依靠对象的已知属性或检测到的图像特征能够进一步改进将执行图像识别的图像区域。例如，就足球运动员来说，我们知道，识别运动员的数字通常印在运动员足球衫的后面。印在运动员足球衫后面的数字是要被检测的图像特征的实例，但是可以理解，其他合适的图像特征也能被检测。

通过对对应于运动员屏蔽的图像区域进行适当分割，能够提取图像区域，其中很可能找到所需的属性或图像特征。然而，技术人员可以理解，可以使用其他合适的方法选取要执行图像识别的图像区域。用这种方法提取图像区域增加了图像区域中有用信息对冗余信息的比例，因为要识别的特征极有可能占据图像区域的较大比例。在一个实例中，通过将像素与阈值进行对比并提取或分离那些超过阈值的像素来完成分割。

在步骤S210，图像阈值用于所提取的图像区域以便于将所选图像区域转换为二值图像。典型地，应用阈值以便于生成黑白阈值图像，但是可以理解，可以使用其他图像阈值，例如那些基于彩色的阈值。在本发明的实施例中，要被识别的所需图像特征或图像区域的一些其他特征的现有知识可用于生成二值图像。例如，可以依靠运动员衬衫的颜色来应用图像阈值以便产生二值图像。通过使用基于将被识别的特征或对象的属性的现有知识的图像阈值，可以提高要识别的所需图像特征与背景之间的差异，并减少与将识别的图像特征不一致的图像特征包含在合成的阈值图像中的可能性。

随后，在步骤S215，在所选的阈值图像区域中检测那些像素彼此邻接的图像区域。然后将已检测的邻接(contiguous)区域分配为所选的、要执行进一步图像处理的邻接图像区域。因此，步骤S215检测彼此邻接的相同类型的像素。这里，术语“相同类型”是指像素的颜色、像素的亮度(也就是像素的属性)等等。换句话说，邻接的图像区域是彼此相邻并对应于在分割中标识的相同类型的像素属性的那些像素所标识的图像区域。例如，在上述的合成阈值图像是黑白图像的情况下，对应于邻接的黑色像素的图像区域(也就是彼此相邻的那些黑色像素)可以被检测并被分配为所选的邻接图像区域。

在步骤S220，任何不太可能与特性相一致的所选邻接图像区域作为虚假图像区域被移除，处理剩余的所选邻接图像区域以便确定要识别的特性的数目。

在本发明的实施例中，为了移除虚假图像区域，依靠所选的邻接图像区域、基于在已提取的图像区域中所选的邻接图像区域的大小、形态、相对位置和位置并使用已知技术来计算不同的度量。在参考检测足球运动员衬衫的数字的上述实施例中，很可能存在一个或两个数字要检测。因此，例如，任何彼此不在相同高度或彼此不具有近似相同尺寸的所选邻接图像区域不太可能成为要被检测的数字。因此，放弃那些不太可能与要检测的特性一致的所选邻接图像区域。

然后，使用高斯概率生成置信度，该置信度指明剩余的所选邻接图像区域与预定义数量的特性相一致的可能性。在本发明的实施例中，处理剩余的所选邻接图像区域，以便参考上面给出的足球衫实例来确定他们与两个特性或数字是否一致。如果置信度没有超过预定的阈值，那么假设只存在一个数字，并选取已提取的图像区域的中心区域中的任何所选邻接图像特征来进行进一步的图像处理。然而，如果剩余的所选邻接图像区域确实对应于两个数字，那么分离这些所选邻接图像区域，并执行关于每个剩余的所选邻接图像区域的如下所述的进一步图像处理。这减少了需要分类的不同特性的数目，因而减轻了内容处理工作站10上的处理负载。例如，当要识别数字时，如果同时在所有剩余的所选邻接图像区域上执行数字识别，那么仅仅数字0到9而不是0-99或0-999需要分类。

在步骤S225，细化在步骤S220分离出的所选邻接图像区域。凭借此处理，将邻接区域在宽度方向上减少为仅仅几个像素的行宽。典型地，已减少的行宽是一个像素的宽度。像素数量由细化处理进行预定义并依赖于要提取的所需要的图像特征。Thierry M.Bernard和Antoine Manzanera所著的、名为“Improved LowComplexity Fully Parallel Thinning Algorithm”、发表于1999年第十届图像分析处理国际会议(ICIAP’99)第215-220页的文章描述了合适的细化处理方法。细化邻接图像区域的好处在于降低了形态的复杂度，因此简化了所有的进一步处理步骤。例如，通过细化数字而不管所使用的字体，可以产生实质上相同的形态。参考图8说明对所选邻接图像区域的细化。仅对那些已被确定为可能与要检测的特性相一致的所选邻接图像区域执行的细化处理减少了必须由内容处理工作站10执行的图像处理的数量。

图8示出了根据本发明实施例的所选邻接图像特征的图像处理的示意图。在图8所示的实施例中，要被检测和识别的图像特征是数字5。在根据步骤S200到S220的图像处理之后，提取所选的邻接图像区域510以用于细化处理。细化之后，图像特征510减少了，以至于其仅有一个像素的宽度，因此形成了修正的宽度图像特征520，对该修正的特征可以进行进一步处理。从图8可以看出，图像特征的复杂度降低了。由于修正的宽度图像特征仅一个像素的宽度，所以数字5在宽度上的变化及字体的个体特征(例如字体特征530)被移除了。

在本发明的实施例中，一旦所选的邻接图像区域变薄(细化)为一个像素粗的线，就在步骤S230将其膨胀或加厚为预定义的像素宽度，以致在要提取特征向量的所选的邻接图像区域中有更多像素。

然后，对于每个分离的所选邻接图像区域，在步骤S230计算该图像区域的特征向量。典型地，由于得到的输出是对旋转及伸缩不变的，所以使用Zernike矩来完成该过程。这么做是有优势的，因为其允许从图像中提取实质上相同的特征向量，即使要被识别的特性在某些方面发生失真(例如由于衣服不坚挺而发生在运动员衬衫上)。然而，技术人员可以理解，计算来自图像特征的特征向量的其他合适的对旋转及伸缩不变的(rotational and scalar invariant)方法也可以使用。

在本发明的实施例中，为了提取所选邻接图像区域的特征向量，使用已知技术来计算该区域的质心。使用质心作为计算Zernike矩的原点。另外，检测已提取图像区域中具有距原点最大距离的像素，并统一标准化已检测的距离以辅助Zernike矩的计算。矩计算中使用的Zernike多项式如下给出：

U_{n}^{m}_{odd} (ρ, φ) = R_{n}^{m} (ρ) \sin (mφ)

U_{n}^{m}_{even} (ρ, φ) = R_{n}^{m} (ρ) \cos (mφ)

(例如，参见http://mathworld.wolfram.com/ZernikePolynomial.html)。这里，ρ是离原点的径向距离，0≤ρ≤1，φ是方位角，0≤φ≤2π，n和m是正整数。关于整数m，n的

如下定义，其中n≥m≥0：

为已提取的图像区域中的每个像素位置计算Zernike矩，随后在已提取的图像区域上求和所述Zernike矩以生成特征向量。得到的特征向量具有与在矩计算中使用的多项式同样多的元素。下面示出特征向量的实例。

多项式特征向量

此处，用于通过求所选邻接图像区域的像素的和来计算矩的多项式在标题为“多项式”的列中示出，矩计算得到的值x_l是生成的特征向量的元素。典型地，从

到

的Zernike多项式用于生成特征向量，这在计算复杂性和生成具有足够数量的元素以在执行分类时消除特性彼此之间的模糊性的特征向量之间提供了很好的平衡。然而，可以理解，可以使用达到不同阶的其它范围或为所选多项式计算的矩。

如上所述，在本发明的实施例中，一旦细化了所选邻接图像区域，其可以随后在执行矩计算之前被加厚到预定义的线宽。这减少了在已细化图像区域中特征向量计算对于噪声或方差的敏感性，因为小的方差趋向于达到平衡。图9示出了根据本发明实施例的用于计算特征向量的加厚的所选邻接图像区域。

图9示出了计算特征向量之前加厚的所选邻接图像区域600的实例。此处，图像特征630说明了Zernike多项式的实例图。如上所述在图像区域600中的每个像素位置计算Zernike多项式的值(例如，对仅出于说明目的示出的像素605、610、615和620)。随后将在每个像素位置计算出的多项式的值求和，以给出该多项式和图像区域600的Zernike矩。该得到的值随后用作如上所述的特征向量中的项目。

作为将已细化的邻接图像区域加厚到预定义的线宽的可替代方法，可以使用插值法帮助扩充样本数量，对这些样本求和可以形成Zernike矩。

在步骤S235，使用合适的分类方法对步骤S230中计算出的特征向量进行分类，以便检测其可能对应于哪个特性。在上面给出的识别运动员衬衫上数字的实例中，可能的特性是数字0-9，虽然可以理解他们可以是任何其他合适的特性。

在本发明的实施例中，使用已知的神经网络技术对特征向量进行分类，以便于对已生成的特征向量进行分类。随后神经网络的输出用于检测所选邻接图像区域可能对应于哪个特性。

在另一个实施例中，将步骤S230中产生的特征向量与先前由预定义特性产生的特征向量进行比较。使用与步骤S230相同的特征向量产生方法来生成预定义特性的特征向量，以便在预定义的特性与将要识别的已检测图像特征之间进行比较。优选地，选择特征向量生成方法以便于为每个特性生成明显不同的特征向量，以便依赖它们各自的特征向量来轻易地将特性彼此区分开来。

在该实施例中，生成每个先前生成的特征向量的置信度，其指示来自在步骤S230中产生的已检测图像特征的特征向量与每个先前产生的特征向量之间的相似性。例如，将图8中所示的产生自细化的邻接区域(即减少宽度的图像特征520)的特征向量与先前产生自数字0-9的特征向量相比较。当与一个先前产生的特征向量比较时，如果减少了宽度的图像特征的置信度超过预定义阈值，那么就将减少了宽度的图像特征识别为与用于生成之前产生的特征向量的特性一致。例如，在图8所示的实施例中，被识别的数字是数字5。将产生自减少了宽度的图像特征520的特征向量与先前产生自数字5的图像的特征向量进行比较，该比较产生置信度，如果该置信度超过阈值，那么就将减少了宽度的图像特征520识别为数字5。

将图像特征与至少两个先前生成的不同的特征向量进行比较，生成置信度，如果该置信度超过预定义的阈值，那么该识别无效，重复涉及接收自视频摄像机20的另一个帧的处理过程。

一旦识别了数字或特性，(在将被识别的特性包括两个或更多个特性的情况下)可以将每个特性的识别组合在一起，以便于识别运动员衬衫上的数字。数字的识别接着可以与存储于HDD740上或存储于插入在BD-ROM驱动器760中的介质上的查找表一起使用，以便于识别运动员。一旦运动员被识别，就可以在图5的步骤S130和S135使用这个数据以更新关联记录。另外，在本发明的实施例中，一旦内容处理工作站10已经识别对象，它会提示操作者通过合适的操作者界面验证该识别。

示例说明

图10、11A、11B和12提供了足球比赛的实例视频图像的帧的示例说明，其中使用本发明的技术追踪运动员并生成足球比赛的三维模型作为虚拟模型。图10提供了由一个高清摄像机产生的足球比赛的视频图像的示例。图11A提供图9的视频图像的实例，其中仅使用每个像素的均值来处理图像以生成背景，图11B提供图9的视频图像实例，其中仅使用图像中每个像素的方差来处理图像以生成背景。图12提供追踪结果的实例，其提供了与图3A中所示实例相一致的在每个运动员周围的边界框。

图13提供了相应的实例，其中使用两台摄像机(如摄像机22.1、22.2)来生成视频图像，每个摄像机分别定位于看到不同的半场。在左半场和右半场中，如图所示通过在每个运动员上叠加的边界框追踪运动员。

在图13的下半部分，生成足球比赛的虚拟模型以表示运动员的位置，在图13的上半部分，如二维视频图像中由摄像机所看到的那样，根据运动员在场上的位置用数字进行标识。因此，足球比赛的三维模型视图与图3B所示的虚拟模型的实例相一致。

直播视频上的追踪覆盖

按照本发明的技术，如上所述地根据足球比赛二维图像的三维模型所产生的追踪信息可以被加到由视频摄像机捕获的视频图像中。图14中说明了实例。如图3B所示，足球场的三维模型用于辅助追踪及检测该足球场上的运动员。一旦从三维模型中检测到运动员的相对位置，那么随后将该运动员的屏蔽投影到二维图像上，并用于辅助在二维图像中检测和追踪运动员。然而，一旦运动员的位置以相对高的概率被识别，就能得知摄像机的二维视频图像中该运动员的位置。因此，说明运动员身份的图形(如追踪算法估算的那样)可以通过内容处理工作站10覆盖于从摄像机馈送的直播视频之上。因此，如图14所示，为每个运动员300、302、304、306提供相应的标签308、310、312、314，为了追踪运动员的身份，该标签随后用于在球场周围跟随运动员。

图14中的图像视图也示出了两个已提取图像的集合320、322。给足球场的每一边提供已提取图像的集合320和322中的一个。每个图像是由摄像机20提供的图像的独立部分，其打算尽可能远地分离足球场上的运动员。因此，识别每个运动员，然后可以提取视频图像中该运动员的图像，并和与足球场上每个球队对应的每个集合中的其他运动员一起显示出来。已提取图像的这种表示可以提供特定运动员视图的自动分离而无需单独的摄像机整场足球比赛都追踪该运动员。因此，可以使用一个摄像机捕获整个足球场，就好像使用多个摄像机追踪每个运动员一样在整场比赛中追踪每个运动员。结果，可以在很大程度上减少开销，降低系统复杂度。

在真实图像与虚拟图像间转换

如上所述，参考图3A和3B，为了帮助对运动员的识别及定位，追踪每个运动员的过程利用了足球场的三维模型。搜集关于运动员位置估算的信息并在视频图像的每个帧间(对象路径数据)追踪该信息，可以通过合成每个运动员的图像并在三维模型中表示这些运动员来创建直播视频图像的虚拟表示。此外，可以使用已知技术来调整模型视图的相对位置或虚拟空间中的合成的摄像机位置，以便适应足球场的三维模型的相关视图。因此，对于由摄像机产生的图像视图所确定的运动员的每个关于时间的位置，可以从摄像机的所需位置中重新创建直播足球比赛的虚拟三维视图。

如图15中实例所示，通过将每个运动员的路径数据应用到三维模型可以合成三维模型(如图3B和13所示)，并且可以由每个运动员在随时间改变的位置处的模型表示运动员。此外，由于可以改变三维模型的视图，为了在现实世界中不存在摄像机的地方提供比赛的视图，可以改变摄像机的相对位置。因此，作为实例，如果判罚了任意球，如图15所示，为了在现实世界中不存在摄像机的地方提供任意球的视图，可以从球门的后面提供摄像机的相对位置。

如上所述，使用投影矩阵P及将相对位置映射到来自球场拐角的摄像机位置的三维模型中来达到此目的。此外，如上所述地估算每个运动员的相对方位，然后该相对方位可以与每个运动员的路径数据一起被提供，并显示具有该方位的运动员的合成模型，该方位随时间改变。因此，向被识别为上述追踪处理的一部分的运动员的方位提供路径数据，以便生成足球比赛的三维模型，由于其对应于真实图像，该方位数据用于改变模型中的运动员方位。

用于用户决定内容的IPTV

图16说明了本发明进一步的实施例。如上所示，为了生成实际直播足球比赛的表示，通过使用追踪算法产生的追踪信息(对象路径数据)，及结合由图3B中方位线指示的他们的相对方位来应用每个运动员的合成的表示，可以合成真实足球比赛的三维虚拟模型。因此这是压缩形式，因为通过以合成的模型替代足球场上运动员的追踪位置，直播视频图像可以由三维的合成形式来表示。由此，根据三维虚拟模型的足球比赛的表示可以通过因特网流向客户端设备。图16中示出了这样的装置，其中内容处理工作站10接收来自数据存储器400的数据，该数据提供预先生成的足球运动员的合成表示。为了增强足球比赛的虚拟表示，该表示也可以包括属于每个运动员姿势、状态或行为的信息。因此，产生自如上所述的追踪过程的路径数据可以被增加为包括与运动员姿势、状态或行为相关的信息，这些信息用于选取相应的运动员的合成模型。

从数据存储器400处接收合成表示，内容处理工作站10可以生成足球比赛的三维虚拟表示，并且可选择将表示三维虚拟模型的数据传给后处理设备410。后处理机410可用于将与足球比赛的三维虚拟模型有关的信息打包以流到分发服务器420。

在图16中，多个客户端处理机422中的每一个都能通过选取涉及所喜欢的球队或所喜欢的特定运动员的视图的选项(其随后供应给分发服务器420)，来请求足球比赛的三维虚拟模型的特定视图。然后，分发服务器420能够依据客户终端422提供的优选选项，发送代表足球比赛的三维虚拟模型的数据。然后，客户终端422能够再现他们的三维虚拟模型的优选视图，其有效地提供了由摄像机20产生的直播视频图像的压缩版本。因此，用于重建足球比赛的三维模型的数据可以被发送到客户端设备，其提供了直播或接近直播的足球比赛的低带宽版本。该数据可以简单地包括提供每个运动员关于时间的位置的追踪的对象路径数据，并可以包括每个运动员的方位。足球场的三维模型可以通过位于客户终端的应用软件来生成，其载入运动员的合成模型并应用路径数据以创建足球比赛的三维模型。替换地，三维模型可用于创建计算机游戏，其重放或重建真实的比赛。

图17示出了本技术的另一个例子，其中摄像机22.1、22.2产生的其中显示整个足球比赛的视频图像被重建的视频图像与对象路径数据和投影矩阵一起传输给客户设备。该视频图像被从内容处理工作站10传输给客户设备422或者从分配服务器420流送。例如图17中所示的，内容处理工作站10通过信道500将视频图像流送到分配服务器420。如图所示，该视频图像通过显示了通过转换和链接来自足球场的两个半场的视频图像形成的足球比赛504的场景。分配服务器420随后将也能够要分配给客户设备422的视频图像与从第二信道502接收到的对象路径数据打包。

根据本发明的技术，客户设备422被配置为显示足球比赛的一部分视频图像，例如其仅仅显示足球场上的一个队员，通过从视频图像中将足球场上的该队员的视图隔离。客户设备422包括一个用于接收由工作站产生的对象路径数据和投影矩阵的通信接口。如已经描述的，对象路径数据为每一个识别的队员提供了每一个在足球场(平面)的三维模型中的队员相对于时间的位置。客户设备中的数据处理器(未示出)利用对象路径数据和投影矩阵识别视频图像中的足球场上的每一个队员。在一个例子中，客户设备422中的数据处理器重新产生足球场的3D模型并且将投影矩阵与对象路径数据一起用于定位足球场上的每一个队员。通过将足球场的三维模型与视频图像中提供的球场的视图相匹配，视频图像中的每一个队员可以被识别。同样，选择了一个期望的队员，则数据处理器被配置为在客户设备的显示屏幕上显示视频图像的仅仅出现该队员的那一部分。

如图17所示的示例性系统的操作，选择的每一个队员的图像，如在图14中作为例子的在组320、322中的每一个可以显示在客户设备422的屏幕上。无需附加的摄像机来独立提供每一个队员的视频图像，并且几乎所有的用于实现每一个队员的隔离的计算处理都可以在内容处理工作站10(例如PS3)中执行，因此减少了需要在客户端设备422(例如PSP)中执行的处理的数量。此外，特定队员的隔离的视图可以从整个足球场的视图中实现。

图18和19提供了一个流程，其示出了图16和17中示出的系统的操作。在图18中，该示出的方法包括步骤：

S300；接收视频图像。

S305；处理获得的视频图像从而从每一个对象中提取一个或者多个特征，将一个或者多个图像特征与视频图像包括的可能的示例对象的预定组的采样图像特征进行比较，从而根据图像特征与可能的示例对象的预定图像特征的比较而识别对象。

S310；产生每一个对象的对象路径数据，其识别的相应的对象，并且提供识别的对象在视频图像中的平面的三维模型中相对于时间或者图像帧的位置。

S315；根据来自视频图像的该平面的对象路径数据计算将每一个对象的位置投影到该平面的三维模型中的投影矩阵；以及

S320；将对象路径数据和投影矩阵传输给一个或者多个客户设备。

为了反映图16所示的系统的操作，图18中可选操作包括：

S325；产生一个场景的三维表示，其包括位于平面上的多个对象中的每一个的合成显示，利用投影矩阵和预定的每一个对象的高度的假设或者假设的摄像机与三维模式对象的位置的确定的距离，通过根据对象路径数据将对象的位置投影到场景的三维模式平面上。

图19示出了图19示出的系统执行的处理，其包括步骤：

S330；将具有对象路径数据和投影矩阵的视频图像传输给一个或者多个客户端设备，

S335；利用从分配服务器接收的对象路径数据和投影矩阵，在客户端设备识别每一个对象，以及

S340；响应于用户的选择，显示其中包括一个或者多个识别的对象的一部分视频图像。

在一些例子中，提供了一种系统和方法，用于将包含了多个位于一个平面上的对象的场景的三维表示传输给一个或者多个客户设备，该三维表示是由视频摄像机获得场景的一个或者多个视频图像产生的。该系统包括

一个图像处理装置，可操作用于接收由视频摄像机接收的包括在一个平面上的对象的观看的场景的视频图像，

用于处理获得的视频图像从而从每一个对象中提取一个或者多个图像特征，

用于将一个或者多个图像特征与来自视频图像包含的可能的示例对象的预定组的样本图像特征进行比较，

用于根据该图像特征与可能的示例对象的预定图像特征的比较来识别对象，

用于产生识别相应对象的每一个对象的对象路径数据；并且产生在视频图像中的一个平面上的识别的对象对应于时间的位置；

用于计算将每一个对象的位置根据来自视频图像中的平面的对象路径数据投影到场景的三维模式中的投影矩阵，以及

用于传输对象路径数据从而产生在平面上的多个对象中的每一个的合成显示的装置。

可以理解，不脱离由附加的权利要求确定的本发明范围，就可以对上述实施例做出多种修改。例如，虽然参考足球比赛说明示例实施例，但可以理解的是，任何其他体育比赛或娱乐表演(例如戏剧)都可以考虑应用上面公开的技术。此外，可以使用除了Cell处理机之外的其他处理机来执行所述技术。根据本发明技术的处理过程可以用计算机程序产品的形式实现，该计算机程序产品包括存储于数据载体(例如软盘、光盘、硬盘、PROM、RAM、闪存或这些或其它存储介质的任意组合)上的处理器可执行指令，或在网络(例如以太网、无线网、因特网或这些或其他网络的任意组合)上通过数据信号传送的处理器可执行指令。

Claims

1、一种用于将包含了多个位于一个平面上的对象的场景的表示传输给一个或者多个客户设备的系统，该表示是由视频摄像机获得的场景的一个或者多个视频图像产生的，该系统包括

图像处理装置，可操作用于接收从视频摄像机接收的场景的视频图像，该场景包括在该平面上的对象的视图，

用于将该一个或者多个图像特征与来自视频图像包含的可能示例对象的预定组的样本图像特征进行比较，

用于根据该图像特征与该可能示例对象的预定图像特征的比较来识别对象，

用于为每一个对象产生识别相应对象的对象路径数据；并且提供已识别对象在视频图像中的所述平面的三维模型上相对于时间的位置；

用于计算根据对象路径数据将每一个对象的位置从视频图像中的平面投影到该平面的三维模型中的投影矩阵，以及

分配服务器，可操作用于接收由图像处理装置产生的对象路径数据和投影矩阵，从而将该对象路径和投影矩阵分配到一个或者多个客户端设备。

2、如权利要求1的系统，其中客户端设备可操作用于

通过利用投影矩阵和每一个对象的高度的预定假设将根据对象路径数据的对象的位置投影到场景的三维模型的平面上，产生该场景的三维表示，该三维表示包括位于该平面上的多个对象的每一个的合成显示。

3、如权利要求1的系统，其中客户端设备包括用户接口，用于接收表示改变所述三维模型的视图的请求的用户控制信号，以及响应该用户控制信号，该客户端设备被操作用于当在显示屏幕上显示该三维模型的显示时改变产生的三维模型的相对观看点。

4、如权利要求1的系统，其中图像处理装置可操作用于

为每一个对象产生在该平面上对象的相对方向的指示，以及

将该相对方向的指示包含在对象路径数据中，并且该客户端设备可操作用于利用与对象路径数据一起提供的该方向指示来定向三维模型平面中的合成的对象。

5、如权利要求1的系统，其中客户端设备被配置为接收代表每一个对象的合成的表示的数据，以用于产生三维模型。

6、如权利要求1的系统，其中该客户设备被操作用于传输一个请求给服务器，该请求表示用户对对象表示、该模式场景内的平面或者投影矩阵中至少一个的选择，并且该服务器可操作为根据该请求匹配对象的表示，该模式场景的平面或者投影矩阵，并且传输代表所匹配的对象的表示、该模式场景的平面或者投影矩阵以用于产生三维模型。

7、如权利要求1的系统，其中每一个对象都是人并且该图像处理装置可操作

为每一个对象产生在视频图像的平面中的人的相对姿态、体态或者行为的指示，以及

用于将关于人的姿态、体态或者行为的指示包含到对象路径数据中，并且该客户端设备可操作

用于检索视频图像中的每一个人的一组表示，在该组中的每一个表示对应于在对缘路径数据中的人的相对姿态、体态或者行为的一个可能指示，和

用于根据对象路径数据中的人的相对姿态、体态或位置的指示，从每一个对象的可能表示组中选择每一个人的表示，和

用于在根据对象路径数据的位置和方向上，在三维模型的平面中生成所选择的表示。

8、如权利要求1的系统，其中利用因特网协议，通过因特网将对象路径数据和投影矩阵传输给客户端设备。

9、如权利要求1的系统，其中分配服务器被配置为接收该场景的视频图像，并且该分配服务器可操作用于将视频图像与对象路径数据和投影矩阵一起传输给一个或者多个客户端设备，并且该客户端设备被操作

用于利用从分配服务器检索出的对象路径数据和投影矩阵识别每一个对象，以及

用于响应于用户选择，显示具有一个或者多个已识别对象的一部分视频图像。

10、一种可操作用于产生场景的三维表示的客户端设备，该三维表示包括位于一个平面上的多个对象，该三维表示从一个或多个由摄像机从场景的观看中获得的视频图像产生，该场景包括多个对象，该客户端设备包括

通信接口，可操作用于接收由图像处理装置产生的代表对象路径数据和投影矩阵的数据，该对象路径数据为每一个对象提供了相应对象的标识；以及在视频图像中的该平面的三维模型上已识别对象相对于时间的位置，和

数据处理器，可操作用于从接收自服务器的对象路径数据和投影矩阵中产生该场景的三维表示，该三维表示包括所述平面上的多个对象的每一个的合成显示。

11、如权利要求10的客户端设备，其中数据处理器可操作用于通过利用投影矩阵和每一个对象的高度的预定假设将根据对象路径数据的对象的位置投影到场景的三维模型的平面上，产生该场景的三维表示，该三维表示包括位于该平面上的多个对象的每一个的合成显示。

12、如权利要求10的客户端设备，包括用户接口，用于接收表示改变所述三维模型的视图的请求的用户控制信号，以及响应该用户控制信号，该客户端设备被操作用于当在显示屏幕上显示该三维模型的显示时改变产生的三维模型的相对观看点。

13、一种客户端设备，可操作于显示场景的一个或者多个视频图像的一部分，该场景包括位于一个平面上的多个对象，该视频图像是由摄像机从包括多个对象的场景的观看中获得的，该客户端设备包括

通信接口，可操作用于接收由图像处理装置产生的代表对象路径数据和投影矩阵的数据，该对象路径数据为每一个对象提供了相应对象的标识；以及已识别对象在视频图像中的该平面的三维模型上相对于时间的位置，并接收所述一个或多个视频图像，

数据处理器，可操作用于利用对象路径数据和投影矩阵来识别在视频图像内的平面上的每一个对象，以及

用于响应于用户的选择，显示具有一个或者多个已识别对象的一部分视频图像的。

14、如权利要求13的客户端设备，其中的数据处理器可操作用于通过利用投影矩阵和每一个对象的高度的预定假设将根据对象路径数据的对象的位置投影到场景的三维模型的平面上，识别在视频图像内的平面上的每一个对象，以及将视频图像中的该平面与三维模型中的平面匹配。

15、如权利要求12的客户端设备，包括用户接口，用于接收用户控制信号，该用户控制信号表示对于与将要显示的一个或多个已识别对缘相关的一部分视频图像的请求，并且响应于该用户控制信号，该客户端设备可操作用于提取包括了一个或者多个已识别对象的一部分视频图像，并且显示提取的部分。

16、一种服务器，用于将图像处理装置产生的对象路径数据和投影矩阵传输到一个或者多个客户端设备，该图像处理装置从包括在一个平面上的多个对象的视图的场景的一个或者多个视频图像产生对象路径数据和投影矩阵，该视频图像由视频摄像机产生，处理获得的图像从而从每一个对象中提取一个或者多个图像特征，将一个或者多个图像特征与来自视频图像包含的可能示例对象的预定组的样本图像特征比较，根据图像特征与存储的可能示例对象的图像特征的比较来识别对象，为每一个对象产生识别相应对象的对象路径数据；以及提供已识别对象在三维模型平面上的相对于时间的位置；并且计算用于根据对象路径数据将每一个对象的位置从视频图像的平面投影到该场景的三维模型中的投影矩阵，该服务器可操作

用于接收对象路径数据和投影矩阵，以及

将请求、对象路径数据和投影矩阵传输给客户端设备。

17、一种用于将包含了多个位于一个平面上的对象的场景的表示传输给一个或者多个客户设备的方法，该表示是由该场景的一个或者多个视频图像产生的，其包括由视频摄像机产生的该平面上的对象，该方法包括

处理获得的视频图像从而从每一个对象中提取一个或者多个特征，

将一个或者多个图像特征与来自视频图像所包括的可能示例对象的预定组的样本图像特征进行比较，

根据图像特征与可能示例对象的预定图像特征的比较来识别对象，

产生每一个对象的对象路径数据，其识别相应的对象，并且提供已识别对象在视频图像中的平面的三维模型中相对于时间的位置；

计算根据对象路径数据将每一个对象的位置从视频图像的该平面投影到该平面的三维模型中的投影矩阵；以及

将对象路径数据和投影矩阵传输给一个或者多个客户设备。

18、如权利要求17的方法，包括通过利用投影矩阵和每一个对象的高度的预定假设将根据对象路径数据的对象的位置投影到场景的三维模型的平面上，产生该场景的三维表示，该三维表示包括位于该平面上的多个对象的每一个的合成显示。

19、如权利要求17的方法，包括

将视频图像和对象路径数据以及投影矩阵一起传输给所述一个或者多个客户端设备，

在客户端设备利用从分配服务器接收的对象路径数据和投影矩阵识别每一个对象，以及

响应于用户的选择，显示包括一个或者多个已识别对象的一部分视频图像。

20、一种包括由计算机可读指令的数据载体，当由计算机执行时，促使计算机实现根据权利要求17的方法。

21、一种用于将包含了多个位于一个平面上的对象的场景的表示传输给一个或者多个客户设备的装置，该表示是由该场景的一个或者多个视频图像产生的，其包括由视频摄像机产生的该平面上的对象，该装置包括

用于处理获得的视频图像从而从每一个对象中提取一个或者多个特征的装置，

用于将一个或者多个图像特征与来自视频图像所包括的可能示例对象的预定组的样本图像特征进行比较的装置，

用于根据图像特征与可能示例对象的预定图像特征的比较来识别对象的装置，

用于产生每一个对象的对象路径数据，其识别相应的对象，并且提供已识别对象在视频图像中的平面的三维模型中相对于时间的位置的装置；

用于计算根据对象路径数据将每一个对象的位置从视频图像的该平面投影到该平面的三维模型中的投影矩阵的装置；以及

用于将对象路径数据和投影矩阵传输给一个或者多个客户设备的装置。