CN102369540A

CN102369540A - 用于对象跟踪的图像处理系统和方法

Info

Publication number: CN102369540A
Application number: CN2010800038738A
Authority: CN
Inventors: 黄浴; 李红兵; 田军; 虹.希瑟.郁
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd; FutureWei Technologies Inc
Priority date: 2009-01-13
Filing date: 2010-01-13
Publication date: 2012-03-07
Also published as: US20100177194A1; WO2010083235A1; US8345102B2

Abstract

在包括一个初始帧和多个后续帧的视频图像上执行了图像处理方法。一个对象位于视频图像的初始帧内部，并生成了一个与该对象有关的直方图。还生成了一个包括对象的前景图。对于每个后续帧，都执行了均值平移(mean shift)迭代，以调节对象在当前帧中的位置。然后，可以更新与对象有关的直方图和前景图。

Description

用于对象跟踪的图像处理系统和方法

交叉引用相关申请

本申请要求2009年1月13号申请的美国临时专利申请，申请号为61/144,393，标题为“MeanShift-Based Object Tracking with Scale Adaptation and Target Model Updating”(使用比例采用和目标模型更新的基于Mean shift的对象跟踪)专利申请的优先权，此处该专利申请以引用的方式并入到本文中。

技术领域

本发明的实施例与图像处理相关，在特定示例中，与目标表示和定位中的基于mean shift视觉跟踪的视觉跟踪相关。

发明背景

已经开发了系统和方法中，用于定义视频中的对象以及在视频帧中跟踪该对象。在各应用程序中，人可能即是要跟踪的“对象”。例如，使用监控相机的运动图像和应用程序对跟踪人的动作感兴趣。

以前，相关工作绝大多数应用背景信息来实现差异测量。例如，一些相关工作通过“高斯差分滤波器”或耗费时间的级别设置功能，搜索比例空间中的最佳比例。一个简单的方法是，通过在位置估计中基于相同度量进行搜索来查找比例，但是会导致收缩问题。一些其他相关工作使用多个内核来设计目标外观与其运动特征之间的关系(该关系导致了复杂性和噪声敏感的算法)。一些相关工作仅解决了模板更新的问题，并使用Kalman过滤或适应性的alpha-blending(α混合)技术来更新直方图，但是仍然导致累加错误。

发明内容

在第一个实施例中，在包括一个初始帧和多个后续帧的视频图像上执行了图像处理方法。一个对象位于视频图像的初始帧内部，并生成了一个与该对象有关的直方图。还生成了一个包括对象的前景图。对于每个后续帧，都执行了均值平移(mean shift)迭代，以调节对象在当前帧中的位置。然后，可以更新与对象有关的直方图和前景图。

在某些实施例中，均值平移迭代包括执行当前帧内的对象的第一次、第二次和第三次搜索。第一次搜索是使用对象的原始比例执行的，第二次搜索是使用对象的放大比例执行的，第三次搜索是使用对象的缩小比例执行的。然后，可以选择三个搜索的最佳匹配项。

本文中还描述了其他实施例和功能。

附图简述

为了更完整地了解本发明及其优势，可以参考以下附图和说明，其中：

图1显示了根据本发明的实施例推荐的跟踪帧；

图2为根据本发明的实施例，基于运动场模式的运动员/裁判员位置的流程图；

图3为根据本发明的一个实施例进行比例和位置估计的mean shift迭代的流程图；

图4为根据本发明的另一个实施例，用于位置估计的mean shift迭代的算法流程图；

图5显示了根据本发明的实施例的目标及其背景；

图6显示了根据本发明的实施例的系统示例；

图7为根据本发明的实施例的、基于组分类的交互系统的结构图；

图8为根据本发明的实施例、基于交互式电视系统的结构图。

具体实施方式

下面详细讨论了本发明优选实施例的设计方法和使用过程。但是，应该感谢本发明，它提供了许多可应用的发明概念，可以在大量特定环境中实施。所讨论的这些特定实施例仅阐述了制造和使用本发明的特定方式，并不用于限制本发明的范围。

本发明的实施例总计贡献了三个用于基于颜色直方图的视觉对象跟踪的功能：1)采用了在前景图中具有软约束的基于均值平移的对象跟踪方法，前景图可以从运动分段、背景建模和差减，或者运动场模型来生成；2)通过将目标直方图与初始目标模型对齐，以保守方法更新目标直方图；和/或3)比例适配，在直方图匹配中的最佳比例应该使得所跟踪的目标与其周围的背景之间的差异最大。

在多种实施例中，本发明提供的方法可以克服在跟踪快速移动的对象中的基于均值平移方法的缺点。该方法包括将分段中的前景的软约束添加至基于均值平移的跟踪架构中，以便减少快速移动对象处理中的不利因素。视觉跟踪这些方法还包括调节基于直方图的视觉跟踪中的比例，具体为通过推荐的判别函数，考虑目标与其周围背景之间的差异，以避免在比例确定中出现“收缩”问题。视觉跟踪该方法还包括在视觉跟踪中更新基于颜色直方图的外观模型，以便以保守方法处理平移的伪差，从而进一步减少平移中的错误。

使用本发明的各方面功能可以实现传统技术中无法获取的多个优势。本文中提供了可以单独实现或多个组合在一起的多个实施例。例如，在均值平移迭代中引入了前景图，仅修改分布和均值平移矢量。搜索跟踪比例的功能是在被跟踪对象与其背景之间的差异的基础上建立的。一个将目标模型的颜色直方图与原始目标模型结合在一起的功能。

本发明的实施例可以应用在交互式电视(iTV)、因特网协议电视(IPTV)、监控功能、智能空间和事件分析中(如某些示例中所示)。本发明的实施例可以为IPTV、互动电视、互动视频、个性化IPTV、社交电视(social TV)以及体育视频数据中的策略分析提供增值服务。

在超链接视频中，可以选择能够产生相关动作的对象，类似于将富媒体内容与相关对象关联起来。使用超链接视频可能的场合包括广播电视、流视频和已发布的媒体(如DVD)。超链接视频提供了使用流媒体进行交互操作的可能性。

随着广播和网络通信的融合，交互式电视为超链接视频的常见的应用领域。例如，欧洲GMF4iTV(交互式电视的一般媒体框架)项目已经开发了这样一个系统，其中活动的视频对象与元数据信息相关联，在生产时嵌入到程序流中，可以由用户在运行时选择以触发其相关元数据的显示。另一个欧洲PorTiVity(便携的交互式)项目使用完全端到端平台来开发和实验，为便携式设备和移动设备提供多媒体(Rich Media)交互电视服务，实现与连接至DVB-H(广播信道)和UMTS(单播信道)的手持式接收器上的移动对象直接交互。

IPTV(因特网协议电视)是一个这样的系统，其中，数字电视服务是通过在网络基础设施之上使用因特网协议提供的，可以包含通过宽带连接进行的传输。基于IP的平台还提供重要的机会，使电视观看体验更加具有互动性和个性化。互动电视业务将成为新兴的大量IPTV产品服务的关键因素。通过快速的双向连接的交互将使IPTV在当今电视中处于领先地位。

对关注对象的定位是IPTV系统中的交互式服务的关注点，，这使得常规电视广播(MPEG-2/-4)可以藉由额外信息(已解码的MPEG-7，用于在视频中定义这些对象)以及将要显示的额外内容(当选择它们时)来增强其功能。具有额外内容(元数据)的对象的规范，通常通过创作工具来实现，包含诸如抽取截图和关键帧、交互区域的规范以及跟踪特定区域的功能以获取所有帧中的区域。因此，对象跟踪模块用于编辑工具中以便在IPTV中实现交互式服务。实际上，视觉对象跟踪对于其他种类的应用(如视觉监控、智能空间、视频压缩和基于视频的界面)等也很重要。

在典型的视觉对象跟踪器(tracker)中可以区分两个主要元件。“目标表示和定位”通常是一个自下而上的进程，须解决目标外观中的更改。“过滤和数据关联”通常是一个自上而下的过程，处理被跟踪对象的动态化、场景优先级的学习以及对不同假设的评价。过滤和数据关联进程的多数提取公式是通过用于设计分散时间动态系统的状态空间方法(例如：Kalman滤波器和Particle滤波器)来完成的。目标显示和定位的算法是特定于图像的并与注册方法相关。目标定位和注册可以最大化可能的类型功能。基于均值平移的视觉跟踪视觉跟踪方法可以分为目标表示和定位，作为基于斜率的搜索进程而用于直方图匹配。但是，基于均值平移跟踪方法的一个明显的缺点是，其必须要求在后续帧中的目标核心上有明显的重叠。背景/前景信息可以通过将约束添加至均值平移迭代中，来帮助克服这些缺点。

使用了多种方法，例如：基于外观的方法、模板匹配方法、直方图匹配方法等。例如，用于视觉跟踪的基于外观的方法各有不同，从严格保留区域结构(模板)，到完全忽略区域结构并基于功能分布进行跟踪(直方图)而有差异。为了考虑虚拟外观的各种变化，基于外观的视觉跟踪方法需要以某种方法来更新目标模型。否则会发生偏移伪差，最终导致目标的丢失。偏移伪差是由于外观模型中的小错误而累积的，随每次外观的更新而导入。频繁的外观更新是为了使目标模型随着目标外观的改变而保持最新所必需的；另一方面，不精确的更新外观模型将会在面临偏移错误时破坏其完整性。因此，必需仔细设计外观的更新方案。

而且，模板匹配方法需要目标模板和目标候选区域之间的像素级的联合，在跟踪不变的形体时可执行良好的功能，已经设计用于在变形模型为已知的情况下跟踪变形对象。在基于样板匹配的跟踪中进行比例调节很容易操作，因为可以清楚地设计目标的运动。

此外，直方图匹配方法由于能够进行局部遮断，所以在跟踪可变形对象方面具有很大的灵活性，但是，可能会相对于另一个具有相同功能分布的区域丢失已跟踪的区域，因为直方图匹配方法区分外观改变的功能不强，对某些运动的敏感性也较小。

基于直方图匹配的跟踪在处理比例改变时困难更大，因为结构信息的重要性已经降低。

图1显示了根据本发明的实施例推荐的跟踪框架；下面将提供每个模块的详细信息。

参考图1，第一步为对象初始化。在一个实施例中，可以手动执行的对象的初始标识。例如，观看视频的人可以通过在对象周围画一个方框来选择对象。对象还可以通过执行对象定位算法来定位。图2中显示了一个这样的算法。然后，可以通过单击由对象分段/检测结果提供的帧，来选择对象(例如：当在图像中单击与对象blob距离足够近的位置时)。

图2显示了对象定位的典型框架。如图表200中所示，框架可以分为两部分：背景提取205和对象检测230。

背景提取205包括背景像素检测210，连接了组件分析215、形态滤波器(例如：膨胀、腐蚀)220和尺寸过滤225。

在某些应用程序(如运动视频)中，有很多图像大部分区域为背景或运动场的快照。基于观察到的这种现象，一种无人监管的分段技术可以用于获取背景模型。但是，并不是所有帧中的背景区域永远足够大，能够使假定要使用的优势颜色有效。因此，可是使用用于学习运动场模式的受监管的方法。受监管方法的缺点是，需要大量带标记的数据，而手动标记即冗长又成本昂贵。

在一个实施例中，定义了两个选项。第一个选项是少量的标记数据的集合(例如：给定背景区域的像素)，用于生成带有一个或多个高斯分布的粗略的背景模型(对于后一种，必须使用多个带标记的数据)。然后，可以使用优势颜色检测，基于不受监管的方法收集多个背景像素，对该模型进行修改。

在第二个选项中，选择了一个优势颜色假定符合条件的帧。然后，提取其优势模式来生成初始背景模型。像第一个选项一样，可以基于优势颜色检测收集更多的背景像素，来修改该模型。

背景模型的确定在共有和已发明的临时专利申请序列号61/144,386(HW 09FW005P)和非临时专利申请序列号12/(HW 09FW010)中已有详细的讨论，此处以引用的方式将它们并入本文中。可以从这些申请的全文中获取更进一步的信息。这些共同待决的申请的进一步特征和实施例可以与此处描述的特征和实施例结合使用。

因此，图2中的框架可用于从背景中的提取或检测对象。对象检测230包括内部过滤235。在预先过滤和已过滤的图像数据之间进行了一个比较(如XOR门所示)。结果可被视为没有背景的图像。然后，该结果将进入并通过已连接的组件分析240以及形状过滤245。形状过滤功能可以处理大小、粗糙度和/或偏心率(如示例中所示)。

返回到图1，当接收到下一个帧时，可以生成前景图。有多种技术可用于生成前景图。例如，此处描述了一个基于运动场模型的分段以生成前景图。在运动视频中，可以将背景视为运动场。

在多种运动视频(例如：足球、橄榄球、足球、棒球和乒乓球)中都直观地显示了运动场。例如，足球、棒球和橄榄球视频的运动场为草地。在给定从带标记的数据(如果可能，可以在线进行更新)中学习的运动场(草地)模型的情况下，对于运动视频中的每个像素，可以评估其为运动场还是非运动场。运动场模型可以通过单个的高斯、混合高斯分布或者颜色直方图比率(运动场和非运动场)来表示。

例如，假设RGB颜色空间中的运动场模型将成为一个单个的高斯(Gaussian)分布，如下所示

(1)p_i(x)＝N(x，μ_i，σ_i)，i＝R，G，B

其中，N表示x的pdf值(带有mean^′和covariance^＜J′)。因此，帧中带有RGB值[r，g，b]的像素y的可能值为

(2)F(y)＝p(playfiel/[r，g，b])＝N(r，μ_R，σ_R)·N(g；μ_G，σ_G)·N(b；μ_B，σ_B)

将要成为运动场或非运动场的像素y的二进制分类可以生成如下所示的weight mask：

(3) G (y) = \{\begin{matrix} 1, & if | r - μ_{R} | < {tσ}_{R} AND | g - μ_{G} | < {tσ}_{G} AND | b - μ_{B} | < {tσ}_{B} \\ T, & otherwise \end{matrix}

其中，T为前景(T＞1)的权重，t为比例因子(1.0＜t＜3.0)。

相应地，帧中将成为前景的像素的可能值由以下公式给定

by1.0-F(y)，

在跟踪初始化中，目标模型(已归一化的颜色直方图)q_t可以按如下公式获取

(4) q_{i, u} = C_{q} Σ_{i = 1}^{n_{k}} (1 - F (x_{i}^{*})) k ({| | x_{i}^{*} | |}^{2}) δ [b (x_{i}^{*}) - u], u = 1,2, . . . m,

其中，m为直方图中的bin(在优选实施例中，RGB颜色空间中为8x8x8个bin)

δ为Kronecker dweight maskelta函数，k(x)为核函数，

为目标区域中的归一化像素的位置，

将像素位置

与离散分布的bin关联在一起，归一化常数C_q表示为：

(5) C_{q} = 1 / (Σ_{i = 1}^{n_{k}} k ({| | x_{i}^{*} | |}^{2}) Σ_{u = 1}^{m} (1 - F (x_{j}^{*})) δ [b (x_{j}^{*}) - u])

q₀定义为初始目标模型的归一化颜色直方图，在跟踪中的第一个帧中获取。它将在以后用于目标模型的更新。

图1中的下一步显示了在跟踪中用于定位和比例估计的mean shift迭代。Mean shift迭代用于基于直方图匹配进行已跟踪目标的位置和比例的估计。图3显示了根据本发明的一个实施例，用于比例和位置估计的mean shift迭代。

在该实施例中，mean shift迭代包括执行当前帧内的对象的第一次、第二次和第三次搜索。第一次搜索是使用对象的原始比例执行的，第二个搜索是使用对象的放大比例执行的，第三次搜索是使用对象的缩小比例来执行的。然后，可以选择三个搜索的最佳匹配项。

基于给定的相似性测量，直方图匹配方法可以是全面的搜索，也可以是梯度下降(gradientdescent)搜索。

为了及时处理目标的更改比例，还需要按比例搜索。目标区域假设为矩形，其在前一个帧中的尺寸为w x h，则当前帧中的直方图匹配将在使用原始窗口大小、加上或减去原始大小的θ百分比之间进行重复。在图2中所示的示例中，θ＝10，也可以使用其他的值。例如，θ可以在5和15之间。

图4显示了根据本发明的另一个实施例，用于位置估计的mean shift迭代。在比例为固定的mean shift迭代中，仅更新对象位置估计。在图4中提供了算法流程图，其详细信息的描述如下所示。

1.使用

初始化当前帧中的候选目标的位置，按如下所示计算它在位置

处的归一化颜色直方图p(y₀)：

(6) p_{u} ({\hat{y}}_{0}) = C_{P} Σ_{i = 1}^{n_{k}} (1 - F (x_{i})) k ({| | ({\hat{y}}_{0} - x_{i}) / h | |}^{2}) δ [b (x_{i} - u)]

使用h作为核心配置参数的带宽，

作为候选目标区域中的归一化像素位置，归一化常数C_p的表达式为：

(7) C_{P} = 1 / (Σ_{i = 1}^{n_{k}} k ({| | (y - x_{i}) / h | |}^{2}) Σ_{u = 1}^{m} (1 - F (x_{i})) δ [b (x_{i}) - u])

之后，可以对下列表达式求值：

(8) ρ [q_{t}, p ({\hat{y}}_{0})] = Σ_{u = 1}^{m} \sqrt{q_{t, u} p_{u} ({\hat{y}}_{0})}

公式(8)称为Bhattacharyya系数。

2.根据下列公式计算加权值

(9) w_{i} = Σ_{u = 1}^{m} \sqrt{\frac{q_{t, u}}{p_{u} ({\hat{y}}_{0})}} δ [b (x_{i}) - u], i = 1 ~ N_{K}

3.根据下面的公式找到目标候选项的下一个位置

(10) {\hat{y}}_{1} = \frac{Σ_{i = 1}^{n_{k}} x_{i} w_{i} (1 - F (x_{i})) g ({| | \frac{{\hat{y}}_{0} - x_{i}}{h} | |}^{2})}{Σ_{i = 1}^{n_{k}} w_{i} (1 - F (x_{i})) g ({| | \frac{{\hat{y}}_{0} - x_{i}}{h} | |}^{2})},

with g(x)＝-k’(x).

4.计算位置

处的归一化颜色直方图p(y₁)，并对下面的表达式求值：

(11) ρ [p ({\hat{y}}_{1}), q_{t}] = Σ_{u = 1}^{m} \sqrt{p_{u} ({\hat{y}}_{1}) q_{t, u}}

5.虽然

ρ [p ({\hat{y}}_{1}), q_{t}] < ρ [p ({\hat{y}}_{0}), q_{t}],

Do {\hat{y}}_{1} = ({\hat{y}}_{0} + {\hat{y}}_{1}) / 2,

计算

ρ [p ({\hat{y}}_{1}), q_{t}]

6.

If \cdot | | {\hat{y}}_{0} - {\hat{y}}_{1} | | \leq ϵstop .

否则，设置

并转到步骤2。

请注意，为了节省计算成本，可以使用备选方案可以进行上面的修改，即将1-F(x)替换为G(x)。如果F(x)＝0.0，则推荐的方法为转回使用基于传统mean shift的跟踪方法。

最佳比例的选择方法为，对测量函数求值，测量函数反映了目标与其背景的区别。图5显示了足球比赛的视频帧500。目标候选区域为尺寸为w x h的较小矩形510，背景区域为尺寸为3w x 3h的较大矩形520去除里面的矩形510余下的部分(目标候选区域)。给定位置y的目标候选区域的归一化颜色直方图

重新表示为

p_f(y)其背景区域的归一化颜色直方图表示为

Pb(y)

该跟踪任务为，基于给定的相似性度量，测量^^f^与^′之间的相似度(例如Bhattacharyya系数)，方法为

(12) ρ [q_{t}, p_{f} (y)] = Σ_{u = 1}^{m} \sqrt{q_{t, u} p_{f, u} (y)} .

但是，此简单的度量不能阻止当用于比例调节时发生比例收缩。此处，在下面定义了推荐的度量。图5显示了根据本发明的实施例的目标及其背景。

首先，背景直方图p_b(y)的元素中的非零值表示为

加权函数计算公式为：

对此加权函数进行部署以定义目标模型和候选项的表示方式的转换。它削弱了在背景中占据优势的那些功能的重要性。

然后，我们按如下所示计算加权目标模型y′

(14) {q^{'}}_{t, u} = C_{q} v_{u} Σ_{i = 1}^{n_{k}} k ({| | x_{i}^{*} | |}^{2}) δ [b (x_{i}^{*}) - u],

其中，归一化常数C_q的表达式为

(15) C_{q} = 1 / (Σ_{i = 1}^{n_{k}} k ({| | x_{i}^{*} | |}^{2}) Σ_{u = 1}^{m} v_{u} δ [b (x_{i}^{*}) - u]) .

相应地，加权目标候选模型^^f^通过以下表达式给出：

(16) {p^{'}}_{f, u} (y) = C_{f} v_{u} Σ_{i = 1}^{n_{k}} k ({| | (y - x_{i}) / h | |}^{2}) δ [b (x_{i}) - u],

使用h作为核心配置参数的带宽，归一化常数C_f的表达式为：

(17) C_{f} = 1 / (Σ_{i = 1}^{n_{k}} k ({| | (y - x_{i}) / h | |}^{2}) Σ_{u = 1}^{m} v_{u} δ [b (x_{i}) - u])

因此，通过最大化已定义的相似度函数获取的最佳比例如下

所示

(18) \max ρ [{q^{'}}_{t}, {p^{'}}_{f} (y)] = Σ_{u = 1}^{m} \sqrt{{q^{'}}_{t, u} {p^{'}}_{f, u} (y)} .

在比例调节中，该测量的优势在于它使用背景来计算目标直方图的加权值，因此目标与其背景之间的差异性得到增强。

最终，使用了alpha-blending来平滑适合的比例：如果先前的比例为h_prev，则基于已定义的度量的调节比例(7)为h_opt，则新的比例h_new

为：

(19)h_new＝αh_opt+(1-α)h_prev，

使用blending系数0＜α＜0.5

返回参考图1，第四步为“直方图更新”。完成mean shift迭代之后，即选取了相似度值。如果该值足够大(在没有阻塞或隐藏的情况下)，则可以按照如下所示运行模型更新过程。

首先，记录最终的估计位置然后，

和q_t分别被

和q₀(初始直方图)所取代，mean shift迭代将再次运行。第二个迭代中估计的位置表示为^¹。

直方图更新策略为

定义为：如果(作为加强第二个梯度下降迭代的小型阈值，不会与第一个迭代的结果偏离太远)，归一化颜色直方图

将在位置

处进行计算，结果作为已更新目标模型q_t+1，...

否则，如果采用保守的操作，则不会更新目标模型，例如：q_t+1＝q_t。

最终，将再次检查相似度测量值。如果该值非常低，则对象将在跟踪中丢失；否则，将在下一个帧中保持这种递归性(循环)。

图6说明了基于本发明的各方面特征的系统。视频生成设备610生成视频帧。在图中，设备610解释为相机。该相机可以使用已知技术生成视频。然后，可以使用未知技术对该视频进行修改，或者进行处理。在另一个实施例中，视频是使用计算机生成的，或者是在没有使用照相机的情况下生成的。

视频在图像处理器620的输入处提供。图像处理器620通常为包含处理器(例如：微处理器或数字信号处理器)的计算机系统，经过编程后可以执行图像处理步骤，例如：本文中描述的算法和方法。图像处理器620通常包含用于存储程序代码以便执行处理的存储器，以及进一步用于在处理过程中存储图像数据的存储器。存储器可以为用于所有功能的单个装置，也可以为多个存储器。

经过处理后的图像(此时可能包含与被跟踪的一个或多个对象的位置相关的元数据)可以用于多个用途。图6说明了媒体发布系统630。在这种情况下，视频通过媒体发布系统630提供给观看者640。例如，在互动电视系统中，已增强了的视频提供给用户640，可能的位置为用户的电视、计算机、智能电话或任何其观看显示屏中。由于系统可以是交互式的，图6说明了也可以进行从用户640至图像处理器的向后通信。

图7根据本发明的各方面特征，说明了IPTV交互系统100，基于组分类的IPTV交互系统100。该系统可用于观看多种运动，例如：足球、橄榄球、篮球、棒球、冰球、板球及其他运动。请注意，图7中的特定配置仅为许多可能配置中的一个。

在本实施例中，用户使用IMS基础设施来注册。电视内容通过用于运动场描述的元数据信息而得到增强。IPTV客户端通过表示运行额外服务的环境的服务来执行，并分别在IPTV客户端执行高级应用程代码已经能行在线运动员定位(分行跟踪欧冠的额外服务服务。

图7进一步显示了示例系统的构造图。在这个结构下，基本操作流程可能会包含用户160，其注册并请求交互服务并使用该服务。用户160能够识别对象(如：运动员/裁判员或球)以定位相关对象(分段/跟踪)。基于IMS的IPTV Client 155(例如Set-Top-Box或PDA)负责为用户160提供必需的功能以利用交互(例如：实施运动员/裁判员定位)以及查看额外内容。

IPTV服务控制功能150管理所有用户至内容和内容至用户的关系，并控制“内容交付和存储140”以及“内容聚合器110”。IPTV应用程序功能145支持多种服务功能并提供与用户160的交互，以通知IPTV服务信息并接受用户的服务请求(例如注册或授权)。IPTV应用功能145与服务控制功能150联合使用，为用户提供所请求的增值服务。

内容聚合器“130”向“内容传输控制135”发送内容发布请求。“内容传输控制135”在收到内容分发布请求时，根据已定义的发布策略，在“内容准备130”和“内容传输和存储140之间生成发布任务。”“内容传输和存储140”将已聚合的使用了元数据进行增强的内容传输至用户160，并可以在实施(其中这些任务没有在IPTV客户端155处执行)中执行运动员定位和团队分类。该系统可能会进一步申请12/(HW 09FW010)。

内容分聚合器110将内容120通过编辑工具115链接至元数据125，并聚合通过元数据信息增强的内容以用于交互式服务。编辑工具115运行运动场学习，并生成MPEG-7元数据。

现在，将根据图8来描述交互式电视系统的特定示例。该示例仅提供了可以在此处实施的概念的许多方法中的一个。

该方案描述了一种多媒体交互式电视应用程序。它专注于与运动程序中的移动对象交互的新概念。在与某些对象直接交互的基础上，电视观看者可以检索与所选对象有关的多媒体内容。

这种交互是建立在IPTV服务器端准备的信息与在IPTV客户端的实时对象位置的组合的基础上的。服务器端的信息以MPEG-7格式存储并对运动场进行描述。客户端不会执行实施对象处理，而是表示屏幕上的相关的媒体信息以用于用户交互。

电视内容通过元数据信息而增强。例如，运动场的描述表示为颜色直方图。用户必须使用IMS基础结构进行注册。IPTV客户端必须通过这样的服务来增强，它提供了一个环境，可用于运行额外的服务并在IPTV客户端执行高级应用程代码以分别用于内容处理和对象突出显示。可以为交易或账务使用计费系统。

图8为说明一个交互式电视系统800的特定配置的结构图。可以看出，该系统应用了许多上面讨论的概念(根据图7)。

现在，请参考图8，服务提供商810提供了一个交互式信道和元数据信息。服务提供商810驻留在所需的网络实体上，并提供必需的基础设施。IMS计费系统为服务提供商810提供了账务功能。该功能允许服务提供商810为提供的服务提供基金。

IPTV客户端820，例如机顶盒(STB)，负责为观看者830提供根据在实时对象处理中利用交互的功能，以便分布亮显的包含额外内容的对象、选择对象或查看额外内容。基于IMS的IPTV客户端820启用了实时对象处理技术以提供交互服务。在另一个示例中，如果视频内容没有使用元数据信息得到增强，则IPTV客户端820可以为用户830提供用户界面以用于收集此类信息。

用户830通过选择对象和采用额外内容来利用服务。传输系统840通常为服务提供商810所有，向用户传输已经聚合并使用元数据而增强的内容，为用户830提供技巧功能和高效的视频和音频技术。

内容分聚合器850将内容860通过编辑工具880链接至元数据870。此聚合器850聚合使用元数据信息而增强的内容以用于交互式服务。内容聚合器850为传输系统840提供了已聚合内容并将其与增强的内容链接在一起。因此，需要考虑将MPEG7作为多媒体元数据描述的标准。编辑工具880处理算法，以便在视频流和MPEG-7元数据生成器中用于运动场的学习。

在系统800的操作中，用户830使用服务提供商810进行注册并请求所需的服务。在此示例中，用户830可以单击运动员以便开始跟踪该运动员。

为了响应用户830的请求，服务提供商810使聚合器850准备增强的内容。为此，聚合器850与编辑工具880进行通信，编辑工具480处理内容图像并使用元数据870增强内容860的功能。然后，聚合器850将已聚合的内容提供给传输系统840。

传输系统840将增强的内容转发至IPTV客户端820，客户端820与用户830交互。用户830还通过IPTV客户端420或其他方式，将流控制提供给传输系统840。

图8中显示的每个功能性单元的功能将在下面的部分中说明。

服务提供商810的功能包括：

·转换内容提供商提供的元数据以注入交互式元素

·连接至IMS网络(例如：通过ISC界面)

·识别内容

·基于公共服务标识(PSI)提供服务触发功能

·接受并执行来自用户830的请求

·在出现带内信令时，控制聚合器850

·控制传输系统840以便将内容从聚合器850转发至IPTV客户端820IPTV客户端820的功能包括：

·启用了IMS的客户(STB)

·音频和视频渲染支持

·基本编解码器支持，例如AC3(音频)和H.264/VC1(视频)

·RTP分接(基于RTP模式)支持以用于所支持的音频和视频编解码器(例如：H.264)

·用于对象检测和对象跟踪的实时对象处理

·应用程序逻辑(数据引擎)处理分段并编辑MPEG-7元数据信息(MPEG7编解码器)

·用于对象突出显示的叠加渲染支持(显示器引擎)(如样例和交互式菜单中所示)。

·显示与所选对象(图片渲染中的图片、在线商店、网络门户、重新使用的MHP以及其他对象)的额外内容相关的引擎

用户830的功能包括：

·利用启用了IMS的客户端820

·请求内容

·需要为流控制使用技巧模式

·通过遥控器选择视频对象

·检索额外信息

传输系统840的功能包括：

·通过单播或多播信道将内容传输提供给IPTV客户端820

·转码

·调节内容

·连接至IMS核心

·启用IPTV客户端820以触发媒体处理和内容传输

·支持技巧功能；RTSP支持

·元数据的带内(DVB-MPEG TS复用)和/或带外(已链接内容在媒体端口上可用)输送

聚合器850的功能包括：

·聚合使用元数据增强的突出显示的流

·与编辑工具880(应用程序服务器)进行界面交互

·准备要传输的聚合内容

编辑工具880的功能包括：

·链接至内容

·运行字段学习算法以学习字段。

·运行对象检测算法

·生成MPEG-7元数据。

尽管本发明的针对IPTV系统中的交互服务，但是本发明的范围并不限于此。推荐的方案可用于其他准确性更高而复杂性更低的视频传输系统中。

尽管使用说明性的实施例描述了本发明，但并不意味着从限制性角度来理解本发明。通过参考本发明，本领域技术人员将会理解，说明性的实施例的多个修改方案和组合以及本发明的其他实施例。因此，下面附加的权利要求用于涵盖这样的修改方案和实施例。

Claims

1.一种图像处理方法，其特征在于，包括：

于图像处理器中接收的视频图像，所述视频图像包含一个初始帧和多个后续帧；

在所述视频图像的初始帧中定位对象；

生成与所述初始帧中的对象相关的直方图；

生成包含所述对象的前景图；

对于所述视频图像中的各后续帧：

执行均值平移，mean shift，迭代以调节所述对象在当前帧中的位置；

更新与对象有关的直方图；并更新所述的前景图。

2.如权利要求1所述的方法，其特征在于，所述执行均值平移迭代包括以多个比例执行均值平移迭代。

3.如权利要求2所述的方法，其特征在于，所述更新与对象相关的直方图包括更新比例。

4.如权利要求2所述的方法，其特征在于，所述执行均值平移迭代包括：

在当前帧中执行对象的第一次搜索，第一次搜索使用对象的原始比例执行；

在当前帧中执行对象的第二次搜索，第二次搜索使用对象的放大比例执行；

在当前帧中执行对象的第三次搜索，第三次搜索使用对象的缩小比例执行；并且

确定第一、二、三中的哪一次搜索找到了对象的最佳匹配。

5.如权利要求1所述的方法，其特征在于，所述执行均值平移迭代包括：

计算候选的归一化直方图；

使用均值平移矢量处理所述候选的归一化直方图；并确定处理结果是否小于所选值。

6.如权利要求1所述的方法，其特征在于，所述更新与对象相关的直方图并更新前景图包括：

确定所述对象是否丢失；

重新定位对象；

生成与该对象相关的直方图；

生成包括该对象的已更新的前景图。

7.如权利要求1所述的方法，其特征在于，所述定位对象包括：接收与用户在视频图像中单击的位置相关的信息。

8.如权利要求1所述的方法，其特征在于，所述定位对象包括执行对象位置算法。

9.如权利要求1所述的方法，其特征在于，所述定位对象包括定位运动视频中的运动员。

10.一种图像处理方法，其包括：

接收视频帧；

通过在视频帧中搜索对象的表示方式，在视频帧中执行对象的第一次搜索，，所述的第一次搜索使用对象的表示方式的原始比例来执行；

通过在视频帧中搜索对象的表示方式，在视频帧中执行对象的第二次搜索，所述的第二次搜索使用对象的表示方式的放大比例来执行；

通过在视频帧中搜索对象的表示方式，在视频帧中执行对象的第三次搜索，所述的第三次搜索使用对象的表示方式的放大比例来执行；

确定第一、二、三中的哪一次搜索找到了对象的最佳匹配。

11.如权利要求10所述的方法，进一步包括：基于所确定的最佳匹配更新对象的表示方式。

12.如权利要求11所述的方法，其特征在于，所述的表示方式包括尺寸和位置。

13.如权利要求10所述的方法，其特征在于，所述的对象的表示方式包括直方图。

14.如权利要求10所示的方法，其特征在于，所述的放大比例比原始比例大5％至15％，缩小比例比原始比例小5％至15％。

15.如权利要求10所述的方法，其特征在于，所述搜索对象的表示方式包括穷举搜索。

16.如权利要求10所述的方法，其特征在于，所述搜索对象的表示方式包括基于相似度测量的梯度下降搜索。

17.一种图像处理器，其包括：

一个输入以接收视频图像，所述视频图像包含一个初始帧和多个后续帧；以及

一个处理视频图像的处理系统，处理系统包括

编程为执行下列步骤的处理器：

在所述视频图像的初始帧中定位对象；

在所述的初始帧中生成与所述对象有关的直方图；

生成包括所述对象的前景图；

对于视频图像中的各个后续帧：

执行均值平移，mean shift，迭代以调节对象在当前帧中的位置；

生成与所述对象相关的直方图；并且

更新所述的前景图。

18.如权利要求17所述的图像处理器，其特征在于，所述执行均值平移迭代包括：

计算候选的归一化直方图；

使用均值平移矢量处理候选的归一化直方图；并确定处理结果是否小于所选值。

19.如权利要求17所述的图像处理器，其特征在于，所述更新与所述对象相关的直方图并更新所述前景图包括：

确定所述对象是否丢失；

重新定位对象；

生成与该对象相关的直方图；

生成包括该对象的已更新的前景图。

20.如权利要求17所述的图像处理器，其特征在于，执行均值平移迭代包括：

在当前帧中执行对象的第二次搜索，第二次搜索使用对象的方法比例执行；

在当前帧中执行对象的第三次搜索，第三次搜索使用对象的缩小比例执行；并且确定第一、二、三中的哪一次搜索找到了对象的最佳匹配