CN104113784A

CN104113784A - 智能电视系统及其方法

Info

Publication number: CN104113784A
Application number: CN201410156249.1A
Authority: CN
Inventors: 法奥斯托C·弗莱意缇斯; 汪灏泓
Original assignee: TCL Corp
Current assignee: TCL Corp; TCL Research America Inc
Priority date: 2013-04-18
Filing date: 2014-04-17
Publication date: 2014-10-22
Anticipated expiration: 2034-04-17
Also published as: US8811673B1; CN104113784B

Abstract

本发明公开智能电视系统及其方法，该方法包括接收对应视频节目的输入视频序列，并将该输入视频序列分成多个视频截图，每个视频截图包含一个或多个视频帧。该方法还包括对所述多个视频截图的每一截图中可能的对象事件进行检测，并运用多模态线索分析视频截图中对象的可能路径，进一步地，该方法包括整合基于路径选择的多个视频截图中的对象事件来检测对象，并生成涵盖所述多个视频截图的对象事件的完整列表。

Description

智能电视系统及其方法

技术领域

本发明涉及电视与用户交互技术，尤其涉及智能用户交互控制系统技术及其方法。

背景技术

传统的通用性电视系统经常无法满足用户的需求，当用户在传统电视系统上查找某一节目时，不仅需要知道节目的名字，还需要了解节目的大致情节，或者需要选择用户喜爱的演员或类型。如果没有合适的信息作为搜索条件输入，在线数据库也无法给出结果，或者是给出的搜索结果仍然不能够完全满足用户的需求，从而给用户体验带来不良影响。

随着技术的发展，智能电视成为一种发展趋势，人们越来越需要开发一个基于对象检测的功能强大且直观的用户交互控制系统。当用户通过遥控器向电视发送一对象请求时，智能电视可从一个或多个在线数据库中查找到相匹配的对象并向用户发送所请求的内容（例如视频、网页、维基百科、购物信息等等）。进一步地，智能电视可基于对象检测通过查找电视频道和互联网准确搜索到用户所要寻找的内容，并通过跟踪用户的浏览历史记录更新推送通知的内容。它为用户提供了一个浏览视频节目中对象的交互式视频体验

视频一般可分为受约束视频和不受约束视频，前者的特征在于存在一定的约束因素，例如监视或交通视频，其镜头被认为是静止的，相较于前景物体，其背景是相对静止的。另一方面，不受约束视频则没有受限特征，其通常特征是快速的镜头移动，复杂和动态背景，物体遮挡。目前几乎没有可用于对无约束的视频的对象检测的实用解决方案。

所公开的方法和系统旨在解决上述的一个或多个问题以及其他问题。

发明内容

本发明的一个方面包括用于基于对象检测的智能用户交互系统的方法。该方法包括接收对应一视频节目的输入视频序列，并将所述输入视频序列分割成多个视频截图，每个视频截图包含一个或多个视频帧，方法还包括检测在上述多个视频截图中潜在的对象事件，并使用多模态线索分析一视频截图中对象的可能路径。进一步地，该方法包括集合跨越多个视频截图的基于路径选择的对象事件来检测对象（跨越多个视频截图指同一对象事件来自所述多个视频截图），生成针对跨多个视频截图的对象事件的完整列表。

本发明的另一个方面包括一个智能用户交互系统。该系统包括用于解码输入比特流的视频解码器，用于存储作为输入视频序列的一定时间的输入比特流的数据存储器，该输入视频序列对应显示设备上显示给用户的电视节目，以及包括一用于将输入视频序列分成多个视频截图的预处理单元，其中，每个视频截图包含一个或多个视频帧。该系统还包括一用于检测在每个视频截图中可能的对象事件的检测单元，一使用多模态线索分析视频截图中对象可能路径的路径分析单元，一通过集合跨越多个视频截图的基于路径选择的对象事件来检测对象的集合单元。

本领域技术人员可根据本公开内容的描述，权利要求书和附图来理解本发明公开的其它方面内容。

附图说明

图1所示为本发明具体实施例中的典型环境示例;

图2所示为与公开的实施例相匹配的示例性计算系统；

图3所示为与所公开的实施例一致的示例性智能电视系统；

图4所示为与所公开的实施例一致的方法流程图;

图5A-5B所示为与所公开实施方案相一致的时装秀中“手提包”和“面孔”之间的拓扑关系的示例；

图6A-6B所示为与所公开的实施例一致的对象路径检测；

图7所示为与所公开实施例一致的智能电视系统的示例性操作过程。

具体实施方式

通过本发明的实施例对本发明进行详细说明，这也将在附图中进行阐述。在任何可能的情况下，相同的附图标记在整个附图中用来指代相同或相似的部件。

图1列举了与本发明实施例相结合的一典型环境100，如图1所示，环境100包括电视机（TV）102，遥控器104和用户108。可选的，环境100还可包括网络设备106。

电视机102可包括任意适当类型的电视机，例如等离子电视，液晶电视，投影电视，非智能电视，或者智能电视。电视机102也可包括其他计算系统，例如个人计算机（PC），平板或便携式电脑，或者服务器等。

遥控器104可包括任意适当类型的遥控器，其可通过与电视机102的通信实现对电视机102的控制，例如定制的电视机遥控器、万能遥控器、平板电脑、智能手机，或者能够执行远程控制功能的任何其他计算设备。遥控器104也可包括其他类型的设备，例如基于遥控控制的运动传感器或深度相机增强的遥控器，以及简单的输入/输出设备，如键盘、鼠标、声控输入设备等。

为了通过电视机102观看电视节目并进行感兴趣的活动，例如购物，用户108可首先捡起遥控器104，并拿着遥控器104，然后使用遥控器104来控制电视机102执行感兴趣的活动，或者，如果应用了运动传感器或深度相机（depth-camera），用户可以简单地使用手或身体姿势来控制电视机102，在这个过程中，用户108可以与电视机102和/或网络设备106进行交互。

此外，可选的网络设备106可以包括任何适当类型的计算机或消费电子设备，以便促进实现遥控器104和电视机102之间通信、数据存储和数据处理。电视机102，遥控器104以及网络设备106可以通过一个或多个通信网络互相通信。

电视机102，遥控器104和/或网络设备106可以在任何合适的计算电路平台上实现。图2显示了一个能够实现电视102、遥控器104和/或网络设备106的示例性计算系统200的原理框图。

如图2所示，计算系统200可以包括处理器202、存储介质204、显示器206、通信模块208、数据库210和外围设备212。某些设备可被省略而其他一些设备也可以包括其中。

处理器202可包括任何合适的处理器或处理机，进一步地，处理器202可以包括用于多线程或并行处理的多个内核，存储介质204可以包括内存模块，如ROM，RAM，闪存模块和大容量存储，如CD-ROM和硬盘等。存储介质204可以存储计算机程序，用于处理器202执行计算机程序实施各种处理。

进一步地，外围设备212可以包括各种传感器和其它I/O设备，如键盘和鼠标，通信模块208可以包括通过通信网络建立连接的某些网络接口设备。数据库210可以包括用于存储数据的一个或多个数据库，并用于对所存储的数据执行特定操作，例如数据库搜索。

图3示出一个与所公开的实施例一致的示例性智能电视系统300。如图3所示，控制系统300包括视频解码器302、数据存储器304和视频处理单306。该系统300还包括预处理单元308、检测单元310、路径分析单元312和一个集合单元314。某些组件可被省略而其他组件可以添加在内。系统300（例如，各种组件）可以通过硬件、软件，或硬件和软件的组合来实现。

视频解码器302可以包括任何合适的解码输入电视机102的输入比特流的视频解码电路。该比特流被解码之后，该数据被提供给视频处理单元306，由其对将要显示的视频数据进行渲染。进一步地，数据存储器304可以包括任何适当的用于存储视频数据的存储介质（例如，存储介质204，数据库210）。视频数据在被存储到数据存储器304之前可进行加密，存储的视频数据在提供给视频处理单元306显示之前需要进行解码。

视频解码器302、数据存储器304和视频处理单元306的配制可被用于实现电视机102的时移功能。用户可以按住直播视频回放一定时间（例如，几秒钟，几分钟或几小时），数据存储器304在用户108观看直播视频的时候可以在解码和显示之间的存储或缓冲视频数据。

预处理单元308可用于将输入视频分成许多视频截图。即当用户尝试进行电视节目倒回时，预处理单元308可将存储在数据存储模块的过去几分钟或任意时间段的视频数据汇总成许多视频截图提供给用户。

检测单元310用于检测每个视频截图中的潜在的对象事件，包括相关类检测和目标类检测。即，检测单元310可自动检测所关注的当前区域，以便用户可指定对象，大幅减少他/她搜索该对象的时间。检测单元310可根据特定的应用设置在电视机102的内部或外部。

路径分析单元312可用于实现通过运用多模态线索分析一个对象依照的可能路径。多模态线索基于检测方法结合外观、时空和拓扑线索，来实现对无约束的视频序列中的对象检测。根据外观线索，使用对象的视觉特征检测视频帧中可能的对象位置，根据时空线索和拓扑线索在目标对象类和相关对象类之间通过相关约束跨越帧序列注入信息；多模态线索信息可以被结合来创建跨越当前视频截图的视频帧的对象事件之间的关联性；路径分析单元312应用动态规划来查找最佳的对象路径。

集合单元314用于通过集合跨越多个视频截图的基于路径选择的对象事件，然后最终的对象事件发送至数据存储器304.

图4示出了与所公开的实施例一致的由包含各种单元的电视系统300执行的典型过程的流程图。如图4所示，在开始时，输入视频被划分成若干个视频截图（S410）。在每个视频截图中检测潜在的对象事件（S420）。在步骤S410中所使用的特定截图边界检测算法是独立于系统之外的，其可以看作是一个系统插件。

获取视频截图后，检测视频截图中的对象。例如，步骤S420中使用两个对象检测器执行对象检测。一个对象检测器用于检测相关对象类的对象，另一个用于检测目标对象类的对象。这两种对象检测器也可以作为系统的插件使用。

假设D为视频序列{F_i}，i=1,...,N，其中N表示序列中帧的数字，F_l表示第i个视频帧；C是对象类别，即目标对象类，M是D中C类对象事件的总数目。D被分成多个截图{S_i}，i=1,...，K。

各对象事件的检测需要获取多模态线索信息（S430），然后融合并创建当前截图中跨帧的对象事件间的联系（S440）。所获得的信息源于模拟如下所述的多模态线索的公式。

D中的某一帧F中一“真实”的对象的外观作为对象事件，O和O^*分别表示一个对象事件和一真实对象。然后，问题是找到D中出现的所有C类的对象事件{O_j}，其中j=1,...,M。每一对象事件由元组(i,l_j,s_j)组成，其中i是Ο_j出现的帧的索引，l_j是Ο_j在Fi中的位置，s_j是Ο_j的尺寸，其通过Ο_j边框的宽度和高度值来表示。

通过运用与C类目标对象相关的外观、时空和拓扑线索在每个截图S_i中检测到的所有C类的对象事件。

更具体地，为获取某S_i中所有的C类对象事件，可分析对象O^*遵循的贯穿截图S_i的最佳路径，其中路径中的每个对象事件是D中M个C类对象事件中的一个。该方法背后的原理为，对截图中对象O^*的路径分析可以消除假阳性的对象事件。假设自从视频被分割为截图后，用于此次任务的截图边界法将不能将连续的场景分成许多单独的截图。

截图中对象路径的分析是基于时空和拓扑线索，外观线索指目标对象类的视觉外观，换言之，对象的视觉外观不会对对象的类别确定产生多少影响，与之相反，时空和拓扑线索指目标对象类和相关对象类的相关性；这里隐含的要求是相关对象类必须是更易被检测，在这个意义上有成熟的技术可很好地检测到相关类的对象。

图5A-5B示出与所公开的实施例一致的在时装秀中“手提包”与“面孔”之间的拓扑关系的一个示例，如图5A-5B所示，针对检测时装秀中手提包的任务，目标对象类是“手提包”，相关对象类是“面孔”。“手提包”类对象的检测可通过面孔检测结果来增强，因为针对面孔检测的技术相当强大。尽管如此，相关类的错误检测仍会发生。目标对象类的检测通过利用这两个类之间的时空和拓扑关系来增强。拓扑关系就相关类对象事件的位置来约束目标类事件可能位置。在所描述的时装秀例子中，模特拎着手提包，模特的脸和手提包之间有清晰的位置关系，边界框描绘针对目标对象“手提包”和相关对象类“面孔”的对象事件。基于此拓扑关系，该模特的面孔的位置被用来限制手提包的可能位置，此外，视频中连续帧的连续性产生了目标类对象的连续位置和相关类对象的连续位置之间的时空相关性。

图6A-6B示出了与所公开的实施例一致的一个对象的路径，如图6A所示，根据相关类对象的运动轨迹和目标类对象的运动轨迹之间的相关性，将有用信息注入整个检测过程。通过训练对象检测器来实现目标类对象的检测，外观线索定义为条件概率P(O︱C)。经训练的对象检测器必须提供P(O︱C)以及被检测对象Ο的位置和尺寸。

时空拓扑线索通过相对于检测到的给定截图中的相关类对象R^*来限制给定的截图中对象O^*采取的路径。根据时空和拓扑约束，可沿R^*的一系列帧{F_k}k=1,...，T，搜索“最佳”路径O^*，图6B示出了如何运用最佳路径去除错误的对象检测。错误的对象由图6B中的白框所示，假设Ο^j表示连续帧F_j中的一对象事件，表示F_j中的对象事件集合，然后，对象O^*在{F_k}中遵循的所需路径具有以下特点：

首先，基于外观线索的高概率可被指定为要求路径中的对象O^*事件有高的条件概率P(O^l︱C)，以及路径中的连续对象事件有高的外观关联性。

连续对象事件的外观关联性被定义为：

其中，l≠m，τ(.)是1-d特征向量表示的一对象事件的边界框；c(.)是测量两个1-d特征向量之间关联性的函数，c(.)图像的是[0,1]，c(.)可以是皮尔逊积矩相关系数或是映射到[0,1]的余弦相似度。

其次，由时空线索确定的O^*和R^*的轨迹中有类似的路径偏差，这样的约束定义为

其中，l≠m，‖.‖₂是L₂范数，ε是一个大于零的常数，使其避免被零除。Γ(.)可进一步扩展包括目标类和相关类对象；两者的边界框的尺寸间的关系，其类似于路径偏差的定义。

再次，路径中的每个对象事件都不应脱离由拓扑线索确定的约束位置。这一要求被定义为函数Ψ(.)，其依赖于特定相关类和对象类之间的拓扑关系。对于时装秀中手提包检测的例子，目标类对象的检测不应在大于距离面孔位置一定距离参数的位置定位。为检测时装秀中的手提包，函数Ψ(.)被定义为：

Ψ (O^{l}) = \max (0, \frac{{| | l (O^{l} - l (R^{l})) | |}_{2}}{\max ({| | l (O^{l}) | |}_{2}, {| | l (R^{l}) | |}_{2})} - θ_{τ}) - - - (3)

其中，θ_τ用于限制检测到的手提包离所检测的面孔的远近，0≤θ_τ＜1。基于对象O^*的期望路径的这些期望特性，所期望的路径应该需要具有更大的

Σ_{i = 1}^{T} P (O^{i} | C),

更小的

Σ_{i = 1}^{T} Γ (O^{i - 1}, O^{i}),

更大的

Σ_{i = 1}^{T} Ω (O^{i - 1}, O^{i}),

和更小的因此，路径问题转换成一个最优化问题，即最小化X(O¹，...，O^T)=

Σ_{i = 1}^{T} {αΓ (O^{i - 1}, O^{i}) + β [1 - P (O^{i} | C)] + γ [1 - Ω (O^{i - 1}, O^{i})] + (1 - α - β - γ) Ψ (O^{i})} - - - (4)

其中α，β和γ是[0,1]之间的加权参数，这样α+β+γ=1且Γ(.)，Ω(.)，和Ψ(.)的图像也在[0,1]间。

为解决优化问题，首先创建一成本函数：

G_{k} (O^{k}) = \min imz e_{o^{l}, . . . ., o^{k - 1}} X (O^{l}, . . ., O^{k}) - - - (5)

其代表最佳解所对应的成本，该解的第k个元素为O^k。因此，最小化G_T(Ο^T)意味着最小化X(O¹，...，O^T).。路径优化步骤采用动态规划寻找最优对象路径（S450）G_k(Ο^k+1)表示为：

因为路径中第k个对象的选择并不依赖之前选择的对象。也就是说，上述成本函数的递归表现使得优化处理的今后的步骤独立于器之前的步骤，适用于动态规划。这个优化问题可转化为在有向非循环图中寻找最短路径的图论问题（DAG）。其方案通过动态规划采用其中t_max是{F_i}一帧中的对象事件的最大数目。

接下来，查找D中所有的C类对象事件，可针对D中的每个S_i建立DAG，重复（a）在DAG中查找最短路径，这样路径中的对象事件Ο^j有P(Ο^l|C)≥p，(b)从DAG中删除每个Ο^j。参数p是路径中的每个对象事件必然具备的最小概率，然后，通过所述的多模态线索在截图S_i中检测到的对象事件是在S_i的DAG中选择作为路径节点的对象事件。

参照图4，潜在的对象事件间的联系创建DAG，虽然他是逻辑关联，但因为它并不是必须创建的，因而代之以通过步骤S450中动态规划解决。进一步地，那些对象事件在选定的路径上被输出，而其他事件则被去除（S460）。

在所有视频截图中集合基于路径选择的对象事件（S470）。创建针对输入视频的对象事件的完整列表（S480）。然后，最终的对象事件用于进一步分析和处理所检测的对象。例如，最终的对象事件被传送至数据存储器304或者被呈现给或者用于其他应用中。

更具体地，图7示出了与所公开的实施例一致的由电视系统300执行的典型应用操作流程700。如图7所示，流程700开始时，获取输入视频剪辑或序列，产生视频剪辑的多个视频截图（S702）。可基于可用的总存储空间和/或用户偏好确定每个视频截图中的视频截图数目和/或帧的数目。

更具体地，视频剪辑基于预定标准和每个截图中定位的关键帧的最佳位置被分成许多截图。例如，这种截图的产生可通过截图边界检测，截图压缩比计算，和优化截图关键帧选择等来实现。

进一步地，如图7所示，视频截图产生后（S702），检测到来自用户的控制命令（S704）。更具体地，当用户在电视上看到感兴趣的东西时，即感兴趣的主题，用户通过发出控制命令停止电视节目。用户可以以任意适当的方式发出控制命令。例如，当电视机102装配有深度相机（例如向体感设备）时，其允许进行姿势控制，用户可向前推右手表示暂停，深度相机侦测到手势，在检测到控制命令后产生视频截图。

当前感兴趣的主题确定后，进行基于主题的对象分割和视频提取过程，例如，产生2分钟视频帧，和许多摘要帧（例如12张图片），例如，针对每个视频截图产生的一个或多个摘要帧。

进一步地，根据需要，摘要帧被呈现到用户的电视屏幕上（S706）。例如，摘要帧以旋转的方式显示供用户选择。用户还可以通过挥手控制图像的向前和向后移动，可选择一帧进行进一步探索。

根据需要，用户可以选择针对对象检测某些特定的摘要帧（S708）。在基于用户选择出的摘要帧确定后或者视频截图由基于特定配置的系统300确定后，视频截图或视频剪辑的对象被检测并呈现给用户（S710）。例如，如先前所描述的对象的检测方法可用于检测对象。即，用所检测到的对象事件进行对象的检测。进一步地，许多与感兴趣的主题相关的对象可突出显示，用户可通过在这些对象上画圈的手势实现，通过保持拳头然后打开手的动作实现对象的最终选择。当然，也可用其他方式进行选择。

此后，确定用户所选择的感兴趣的对象（S712），并传送有关选择的对象的信息（S714）。例如，系统300可确定用户选择的感兴趣的对象（s）或者基于对象间的关联性自动确定，例如目标对象和相关对象之间的关联性。有关选择的对象的所有可用信息均可获取，并提供给系统300。

进一步地，系统300可搜索感兴趣的对象（s）并确定是否接受搜索结果（S716）。例如，系统300可针对与感兴趣的对象（s）相关的内容在数据库或在线数据库中搜索感兴趣的对象（s）。当完成搜索过程时，包含搜索结果的信息发送至前端，若确定不接收该搜索结果（S716否），系统可在预定时间段内继续等待新的搜索信息。

如果确定接受搜索结果（S716是），向用户发送提示信息，提示其有关接受结果（S718）。例如，系统在电视屏幕上向用户显示一通知图标。

用户可选择等待直到电视系统完成接受过程，或者选择立即打开图标，在电视节目播放的同时开始浏览搜索结果。用户根据搜索结果是否为他/她正找寻的正确内容来决定是否接受搜索结果（例如视频，网页，维基百科，购物信息等）。如果用户不选择结果（S720；否），系统可在预设时间段内等待用户对图标的选择。

另一方面，如果确定用户在所接受的搜索结果中进行了选择（S720；是），可提供所选择的信息供用户浏览（S722）。

通过使用所公开的方法和系统，可实现各种有利的基于视频的智能应用和用户交互应用。所公开的方法和系统超越了通过嵌入视频的多模态线索来“孤立的”检测和对不受约束视频中特定类对象检测的增强。所公开的方法和系统运用基于检测方法的多模态线索，该检测方法结合外观线索、时空线索和拓扑线索来进行不受约束视频序列中的对象检测。外观线索规定了运用对象视觉特征来检测视频帧中可能的对象位置，时空线索和拓扑线索通过目标对象类和相关对象类间的关联约束向帧序列中注入信息。换言之，所公开的方法和系统集合外观信息，时空信息和拓扑信息来实现不受约束视频序列中的对象检测。

应当指出的是，基于对象检测的智能用户交互控制系统的概念也可扩展到其它设备上（例如，基于对象检测的电视购物设备），只要该设备可用所公开的用户交互模型集成到电视观看体验中即可。

为实现独一无二的用户交互体验，所公开的系统和方法也可扩展到其它显示设备上，例如手机、平板电脑、手表等等。利用上述说明进行的其他应用，或对本方案的改进，替换和变形，或等同于所公开的实施例的方案都属于本发明所附权利要求的保护范围。

Claims

1.一种基于对象检测的智能用户交互系统的交互方法包括：

接收对应视频节目的输入视频序列；

将该输入视频序列分成多个视频截图，每个视频截图包括一个或多个视频帧；

检测所述多个视频截图中每一视频截图中潜在的对象事件；

根据多模态线索分析视频截图中对象的可能路径；

集合跨越多个视频截图的基于路径选择的对象事件来检测对象，并生成针对跨越多个视频截图的对象事件的列表。

2.根据权利要求1所述的方法，其中，所述根据多模态线索分析视频截图中对象的可能路径进一步包括：

结合外观线索、时空线索及拓扑线索来进行所述多个视频截图的对象检测；

根据外观线索，使用对象的视觉特征检测视频帧中可能的对象位置；根据时空线索和拓扑线索，在目标对象类和相关对象类之间通过相关约束跨越帧序列注入信息；

融合多模态线索信息来创建跨越当前视频截图的视频帧的对象事件之间的关联性；并且应用动态规划来查找最佳的对象路径。

3.根据权利要求2所述的方法，其特征在于：

规定Ο^l是视频序列第l个视频帧F_l中的对象事件和Ο^m是视频序列第m个视频帧F_m中的对象事件，一路径中的被检测到的对象事件Ο^l的条件概率为P(O^l/C)，

其中C是目标对象的类，并且路径中连续的对象事件Ο^l和Ο^m具有外观关联性，其被定义为：

其中，l≠m，τ(.)是一个代表对象事件边界框的1-d特征向量；c(.)是测量两1-d特征向量之间关联性的函数，c(.)的图像是[0,1]。

4.根据权利要求2所述的方法，其特征在于：

规定Ο^l是视频序列第l个视频帧F_l中的目标类对象事件和Ο^m是视频序列第m个视频帧F_m中的目标类对象事件，目标类对象和检测到的相关类对象轨迹的路径偏差被定义为：

其中，R^l是视频序列第l个视频帧F_l中的相关类对象事件，R^m是视频序列第m个视频帧F_m中的相关类对象事件，l≠m，‖.‖₂是L₂范数，ε是一个大于零的常数。

5.根据权利要求2所述的方法，其特征在于：

规定Ο^l和R^l分别是视频序列第l个视频帧F_l中的目标类对象事件和相关类对象事件，函数Ψ(.)取决于相关类对象R^l和检测到的对象Ο^l之间的拓扑关系，其被定义为

Ψ (O^{l}) = \max (0, \frac{{| | l (O^{l} - l (R^{l})) | |}_{2}}{\max ({| | l (O^{l}) | |}_{2}, {| | l (R^{l}) | |}_{2})} - θ_{τ})

其中‖.‖₂是L₂范数，θ_τ用于限制检测到的对象Ο^l与相关类对象R^l的距离远近，其中0≤θ_τ＜1。

6.根据权利要求4所述的方法，其特征在于：

Γ(.)进一步包括目标类和相关类对象的边界框的尺寸之间的关系。

7.根据权利要求1所述的方法，进一步包括：

产生针对视频节目的多个摘要视频帧并显示在显示器上；

检测到用户停止视频节目的命令，在停止视频节目之后，在显示器上向用户呈现所述多个摘要视频帧。

8.根据权利要求7所述的方法，还包括：

获取用户从多个摘要视频帧中所选择的摘要视频帧；

在显示器上向用户呈现基于对象事件检测到的多个感兴趣的对象；

确定用户从多个感兴趣的对象中所选择的感兴趣对象；

搜索所选择的对象，向用户呈现基于搜索结果的内容。

9.一个智能用户交互系统，包括：

用于解码输入比特流的视频解码器；

用于存储作为对应显示设备上显示给用户的电视节目的输入视频序列的一定时间的输入比特流的数据存储器；

用于将输入视频序列分成多个视频截图的预处理单元，其中，每个视频截图包含一个或多个视频帧；

用于检测在每个视频截图中潜在的对象事件的检测单元；

根据多模态线索分析视频截图中对象的可能路径的路径分析单元；

通过集合跨越多个视频截图的基于路径选择的对象事件来检测对象的集合单元。

10.根据权利要求9所述的系统，其中所述路径分析单元进一步配置为：

根据外观线索，使用对象的视觉特征来实现检测视频帧中可能的对象位置；

根据时空线索和拓扑线索，在目标对象类和相关对象类之间通过相关约束跨越帧序列注入信息；

11.根据权利要求10所述的系统，其特征在于：

规定Ο^l是视频序列第l个视频帧F_l中的对象事件和Ο^m是视频序列第m个视频帧F_m中对象事件，一路径中的被检测到的对象事件的条件概率为P(O^l/C)，其中C是目标对象的类，并且路径中连续的对象事件Ο^l和Ο^m具有外观关联性，其被定义为：

12.根据权利要求10所述的系统，其特征在于：

规定Ο^l是视频序列第l个视频帧F_l中的目标类对象事件和Ο^m是视频序列第m个视频帧F_m中的目标类对象事件，目标类对象和检测到的相关类对象的内径偏差轨迹被定义为：

Γ (O^{l}, O^{m}) = \{\begin{matrix} 0 & l = 0 \\ 1 - \frac{\min ({| | l (O^{l}) - l (O^{m}) | |}_{2}, {| | l (R^{l}) - l (R^{m}) | |}_{2})}{\max ({| | l (O^{l}) - l (O^{m}) | |}_{2}, {| | l (R^{l}) - l (R^{m}) | |}_{2}) + ϵ} & l &NotEqual; 0 \end{matrix}

13.根据权利要求10所述的系统，其特征在于：

规定Ο^l和R^l分别是视频序列第l个视频帧F_l中的目标类对象事件和相关类对象事件，函数Ψ(.)取决于相关类对象R^l和检测到的对象Ο^l之间的拓扑关系，其被定义为：

Ψ (O^{l}) = \max (0, \frac{{| | l (O^{l} - l (R^{l})) | |}_{2}}{\max ({| | l (O^{l}) | |}_{2}, {| | l (R^{l}) | |}_{2})} - θ_{τ})

14.根据权利要求12所述的系统，其特征在于：

15.根据权利要求9所述的系统，其特征在于，还包括：

当用户尝试进行电视节目倒回时，预处理单元可将存储在数据存储模块的过去几分钟或任意时间段的视频数据汇总成许多视频截图提供给用户。

16.根据权利要求15所述的系统，其特征在于，进一步包括：

产生针对视频节目的多个摘要视频帧并显示在显示器上；

17.根据权利要求16所述的系统，进一步包括：

获取用户从多个摘要视频帧中所选择摘要视频帧；

确定用户从多个感兴趣的对象中所选择的感兴趣对象；

搜索所选择的对象，向用户呈现基于搜索结果的内容。