CN104349217A

CN104349217A - 一种动态物体的检测处理方法及其系统

Info

Publication number: CN104349217A
Application number: CN201410345205.3A
Authority: CN
Inventors: 法奥斯托C·弗莱意缇斯; 汪灏泓
Original assignee: TCL Corp
Current assignee: TCL Corp; TCL Research America Inc
Priority date: 2013-07-23
Filing date: 2014-07-18
Publication date: 2015-02-11
Anticipated expiration: 2034-07-18
Also published as: CN104349217B; US20150030202A1; US9208385B2

Abstract

一种动态物体的检测处理方法及其系统，其中所述方法包括：采集一段与视频相对应的视频图像序列；获取这段视频图像序列中的若干个视频帧，以及确定计算能力与处理频率限制。这种方法还包括如何在上述计算能力与处理频率限制的范围内，从所述若干个视频帧中划定一到数个感兴趣区域以及依据感兴趣区域从所述若干个视频帧中选择一个特定的帧的集合。这样的一个特定的帧的集合实质上代表了上述若干个视频帧的物体图像演变过程。更具体的，这种方法还包括在上述计算能力与处理频率限制的范围内，通过运算所述特定的帧的集合在其中检测目标物体出现情况。

Description

一种动态物体的检测处理方法及其系统

技术领域

本发明涉及电视机及用户界面技术领域，尤其涉及视频处理系统及其方法的技术。

背景技术

过去普遍使用的电视机在很多情况下并不能满足用户的需求。如果想要在这些电视机上运行一个指令，用户需要记住这个指令的名称和运行这个指令的大致操作步骤，或者从用户预设的喜爱菜单中选择。如果用户没有输入合适的搜索条件，将无法在数据库中找到对应的搜索结果，或是搜索结果无法准确的反映用户的真正需求，由此对用户的使用感觉造成不良的影响。

随着影像处理技术的发展，智能电视机成为了发展的潮流。发展一种基于物体检测，有效直观的用户界面控制系统的需求越来越强烈。当用户通过遥控向电视机发出一个搜索相关目标(如某种商物)的指令时，智能电视机将会从一个到多个网络数据库中找出与该目标相匹配的部分并形成一个结果列表供用户选择(例如，视频，网页，维基百科，购物信息等等)。更进一步的，智能电视机还能够利用物体检测在电视频道和网络上进行搜索，从而提供一个真正吻合用户需求的搜索内容。并且智能电视还可以跟踪用户的浏览历史，通过推送通知的方式来更新这个搜索内容。这为用户提供了在视频节目中浏览搜索结果的互动式图像体验。

但是，有效的进行物体检测是一个非常困难的任务，特别是对移动物体的检测。当其需要检测的是移动的复杂物体并且还要兼顾准确性和计算速度两者的平衡时，要有效完成这一任务是更为困难的。所述的复杂目标是指一个既没有规则的外部轮廓又会发生多种形态变化的物体。例如，检测书包是非常困难的，因为书包没有特定的形状，会发生破损变形，被手部阻挡等情况，甚至还会发生形态变化。在这种情况下，低复杂目标检测系统将无法提供准确的检测结果，而只利用移动评价的检测系统不会意识到书包可以被人用手拿着，并且由此，前景移动评价将会把人和书包一起视为书包，而不能仅仅检测书包。

在实时系统中，对获取的图像视频序列的每一视频帧都进行复杂目标检测运算是几乎是不可能或者是不切实际的。也就是说，其不可能有足够的计算能力在每一视频帧上进行复杂目标检测运算并且实时系统只能在其计算能力限度内生成运算结果。

本发明公开的方法及其系统用于解决现有技术中的一个或者多个问题因此，现有技术还有待改进和发展。

发明内容

本发明的一方面公开了一种物体检测系统的运行方法。所述方法包括：采集与输入视频对应的图像序列；获取这段图像序列中的若干视频帧，确定计算能力与处理频率的限制。这种方法还包括在计算能力与处理频率限制范围内，从所述若干视频帧中选择一个或多个个感兴趣区域以及依据感兴趣区域从所述若干个视频帧中选出一个特定的帧的集合。所述一个特定的帧的集合实质上代表了所述若干个视频帧的物体图像演变过程。更具体的，这种方法还包括在计算能力与处理频率的限制范围内通过对所述一个特定的帧的集合进行运算，在这个集合中检测目标物体的出现。

本发明另一方面公开了一种物体检测系统。所述系统包括预处理模块和目标检测模块。所述预处理模块用以采集与输入视频相对应的视频图像序列；获取这段视频图像序列中的若干视频帧，以及确定计算能力与处理频率的限制。所述目标检测模块还包括：感兴趣区域选择单元，用以在上述计算能力与处理频率的限制范围内，从所述若干视频帧中划定一到数个感兴趣区域以及最优视频帧选择单元，用以依据感兴趣区域从所述若干视频帧中选出一个特定的帧的集合。这样的一个集合实质上代表了所述若干个视频帧的物体图像演变过程。所述目标检测模块还包括目标检测单元，用以在计算能力与处理频率的限制范围内通过所述一个特定的帧的集合进行运算，在这个集合中检测目标物体的出现。

本发明的其他方面，所属技术领域技术人员能够依据本发明的权利要求书，说明书，以及附图有效实施并充分公开。

附图简要说明

图1展示了关于本发明的具体实施例中的典型环境示例。

图2展示了一个与公开实施例一致的计算系统的示例。

图3展示了一个与公开实施例一致的智能电视机系统的示例。

图4展示了一个与公开实施例一致的目标检测系统框架的示例。

图5A-5D展示了与公开实施例一致的目标检测系统中源自视频的4视频帧。

图6A-6D展示了与公开实施例一致的目标检测系统中的提取视频帧以及其相应的感兴趣区域。

图7A-7B展示了与公开实施例一致的移动离散性分布图的示例

具体实施方式

附图中展示的部分将被引用以具体说明，阐述本发明具体技术实施方案。说明书中引用的数字代表附图的相应部分。

如图1所示，这是本发明一个典型环境100。所述环境100中包括有：电视机102，遥控器104，用户108，可选择的，环境100还可以有网络设备106。

电视机102可以是任何合适类型的电视机，例如等离子电视，LCD电视，背投式电视，智能电视或者非智能电视。电视机102还需要包括一个计算系统，例如个人电脑，掌上、移动电脑或者是服务器等。

遥控器104可以是任何合适类型的能够遥控操作电视机102的遥控器，例如配套的电视遥控器，通用电视遥控器，掌上电脑，智能手机或者其他能够实现遥控功能的智能设备。遥控器104还可以包括其他不同类型的设备，例如动作感应遥控设备，图像感应遥控设备以及其他一些输入设备，例如键盘，鼠标，声控输入等。

用户需要观看电视节目或者在电视上进行其他感兴趣的活动时，例如在电视上购物，用户108首先拿起遥控器104，然后用遥控器104控制电视机进行用户感兴趣的活动。如果电视机配备有动作感应或者图像感应装置，用户还可以使用手势动作进行控制。在这个使用过程中，用户与电视机102或者网络设备106之间实现交流，互动。

更具体的，所述可选择加入的网络设备106包括任何能够使遥控器104以及电视机102之间进行数据交流，存储，处理更为方便的计算性或者消费性电子设备。遥控器104和网络设备106之间通过一种或者多种联系网络相互进行联系。

电视机102，遥控器104和/或网络设备106在一个合适的计算电子平台实现其功能。图2是其中一种可用于实现上述设备102、104、106的功能的计算系统200的方框图。

如图2所示，所述计算系统200包括一个处理器202，存储媒介204，监控器206，通信模块208，数据库210以及外围设备212。所述计算系统可以减省上述设备，也可以添加一些其他类型的设备，而不限于上述设备。

处理器202可以是任何合适的处理器或处理器组。更具体的，所述处理器202可以是能够进行多线程处理的多核心处理器。存储媒介204可以包括内存模块，例如ROM，RAM，闪存模块以及大容量存储模块，例如CD-ROM，硬盘等。在处理器202运行为实现多种数据处理而预设的计算机运行程序时，存储媒介204可以用于存储这些计算机运行程序。

更具体的，外围设备212可以包括不同的传感器和输入，输出设备，例如键盘，鼠标。通信模块208可以包括一些网络接口设备。其通过联系网络在设备之间建立连接。数据库210可以包括一到多个存储不同数据，并可以对数据进行一些处理，例如搜索数据的数据库。

图3展示了与本发明的具体技术方案一致的智能电视系统300。如图3所示，控制系统300包括了一个视频解码器302，数据存储模块304以及视频处理模块306。所述控制系统300还包括一个预处理模块308，目标检测模块310，检测后处理模块312。所述控制系统可以减省上述组成设备，也可以添加一些其他类型的设备，而不限于上述设备。所述系统300可以由硬件实现其功能，也可以由软件实现其功能，还可以结合硬件和软件一起实现其功能。

所述视频解码器302可以是任何适合的视频解码器，该视频解码器能够解码输入电视机102比特流。在比特流被解码后，数据被传输到视频处理模块306进行处理，使这些数据能够播放。更具体的，所述数据存储模块304是任何合适的用于存储视频数据的存储媒介。视频数据在被存储到数据存储数据模块304之前先进行编码，并且在传输到视频处理模块306处理前进行解码。

所述视频解码器302，数据存储模块304以及视频处理模块306用以实现电视机102的录制回放功能。用户108能够在一段时间(例如几秒钟，几分钟，几个小时)内控制一段实时播放节目的重放。此时，数据存储模块304在解码与播放之间存储或者缓存这些数据。但是，如果在使用一些不需要缓存数据功能时，可以省略数据存储模块304的步骤而由其他处理模块(例如处理器202)连接解码器302和视频处理模块306以实现实时同步数据处理。

预处理模块308的功能是将一段视频分成许多视频帧。这就是说，预处理模块308可以将储存在数据存储模块304中过去一段时间内的视频信息分成许多视频帧，然后进一步处理。

更具体的，预处理模块308还可以决定一些系统运作参数。例如，它可以决定控制系统300的计算能力限制和处理频率限制。这就是说，预处理模块308可以决定处理系统的运算能力和一次能够处理﹑运算的视频帧数，例如物体检测等。

检测后处理模块312可以用于控制系统300运算后得到的数据的处理。例如，所述检测后处理模块312可以用于对最终检测出的目标物体的出现情况进行存储或者处理。

所述目标检测模块310可以用于检测可能在视频上出现的目标。根据特定的应用，所述检测模块可以整合在电视机102里面，或者，设置在电视机102的外面。

更详细的，所述目标检测模块310通过若干个检测步骤在所述运算能力和处理频率的限制范围内实现实时检测复杂物体的功能。目标检测模块310的运算能力由控制系统300的实际和/或者实时限制运算能力决定。图4展示了目标检测模块310可以使用的一种检测步骤框架图。

如图4所示，目标检测模块310可以由感兴趣区域计算单元410，最优视频帧选择单元440和目标检测单元460组成。所述目标检测模块310也可以包括其他不同的组件。因此，一个完整的目标物体检测处理过程可以分为三个步骤：计算感兴趣区域，选择最优视频帧以及检测目标物体。所述检测模块310的输入数据由预处理模块308在运算能力以及处理频率的限制范围内进行预先处理。

感兴趣区域计算单元410对输入视频的每一视频帧进行处理，形成许多感兴趣区域。更详细的，物体移动和纹理数据采集子单元420用于分析视频图像中的目标物体移动和纹理数据。在一些实施例中，物体移动和纹理数据采集子单元420可以采用基于区域移动分析的方法来获得目标物体的移动数据。

因此，纹理计算组件426用于获得视频图像的纹理信息。更详细的，目标移动判断组件422与角度和距离测定组件424将物体在图像上的移动分拆为移动角度和距离两个参数进行描述。图像表达组件414利用区域判断分析算法整合，分析上述数据，形成一个感兴趣区域的图像结果。最后，经过图像切割组件412在生产的图像结果上切割生成最终的感兴趣区域。

更具体的，最优视频帧选择单元440决定了提交给目标检测单元310计算的最优视频帧或者是所需要的视频帧。更详细的，感兴趣区域计算单元410生成感兴趣区域的输入数据还包括图像质量数据。图像质量数据计算子单元450利用局部区域特征以及内容覆盖信息(分别由局部区域特征组件452和内容覆盖信息组件454提供)表征一个特定的帧的集合的图像质量变化趋势。上述选择最优视频帧的装置利用上述数据在可能相连的视频帧之间建立联系，由此生成一个有向无环图(DAG)。所述有向无环图可以视为这些视频帧之间建立了逻辑联系，但事实上其并非真正进行了这些联系，而是通过数据分析处理达到的效果。更详细的，最优路径选择组件444用以选择在有向无环图中最长的路径。虽然在结果上需要对最优路径组件444所使用的拉格朗日因子进行一些微调，但这个最长路径实际上代表了一个最佳的帧的集合。

在最优视频帧选择单元440选择出所需视频帧462后，选出视频帧462由目标检测单元460进行运算。更详细的，目标检测组件464通过运算形成目标出现检测结果，而这个结果将被存储在目标出现466。目标检测单元对每个选出视频帧都进行目标检测运算操作。

依据本发明公开的具体技术方案，以下将更详细地描述检测移动和/或复杂目标的目标检测系统的具体操作和处理。

在获取一段视频后，将这段视频用表示，其中i是自然数，N表示这段视频的总视频帧数，F_i表示视频V的第i^th视频帧,在V中检测移动物体集合C通过移动数据以及每个帧在D_o(.)中检测得出的移动物体集合C的结果叠加得到，这样的结果经过i帧的叠加后，就是所需要的最终结果。

为了方便陈述，本发明将物体在图像中的出现记为O，物体记为O^*。使用目标物体检测组件D_o(.)的必要性在于检测复杂物体不能只检测其移动情况，例如，检测在T形台上走动的模特身上穿的衣服或者她拿在手里的手提包。

但是，上述方法是建立在系统运算能力强大到能够将所有视频帧的D_o(.)整合，并及时地得出所需要的结果的基础上。而在实时检测复杂移动物体时使用这种方法所需要的庞大运算量是不可能被满足的，特别是，D_o(.)在进行目标物体检测之前的准备就需要占用非常多的运算能力。

因此，考虑到系统的运算能力﹑能够提交给D_o(.)进行检测的最大视频帧数，或者两者(例如，由预处理模块308决定)，需要对检测方法进行调整。

在上述运算能力和运算时间的限制下，为达成物体检测的任务，可以在视频中选择最能体现物体移动特点的一部分视频帧选择所述最优的一部分视频帧S以及D_o(.)分析检测最优部分视频帧S所需的运算量都应在系统运算能力范围之内。视频帧的总数N_S在预先确定的最大视频帧数之内。

因此，预想的目标物体检测装置D_o(.)的任务可以被定义为：给出一个运算能力速率γ以及处理频率κ，任务是在视频V的移动物体集合C中找出目标物体的运动情况，运行这样的检测程序所需的运算量必须低于或等于γN，并且生成这个目标物体在视频中的运动情况的结果最多使用κN。也就是说：运算能力速率限制决定了分析，检测，处理这段视频所能使用的最长时间而处理频率限制决定了能交给D_o(.)处理的最大视频帧数。

为了满足所述运算能力速率的限制和处理频率的限制，物体检测系统选择了能够反映物体在视频中运动的趋势的一个帧的集合并将其交给D_o(.)检测处理。如本文中所使用的，物体O^*的图像在视频中的出现顺序被称为目标物体图像演变过程。移动物体O^*在一视频帧中的图像则被认为是对O^*在视频中出现的其中一个视图的描述。

例如，图5A-5D展示了视频中的四个视频帧，所检测的物体是模特手中的手提包。如图5A-5D所示，前两视频帧显示了O^*的一个方向的视图，后两视频帧则显示了另一个方向的视图。在只使用D_o(.)检测两视频帧的前提下，如果目标是检测模特手中的手提包，应该将分别能代表两个方向视图的两视频帧输入D_o(.)进行检测。因为这样的两视频帧可以表示手提包的物体图像演变过程。

因此，物体检测系统的目标就是选择出最能完整展现目标物体在视频中的物体图像演变过程的视频帧。

在另一个具体技术实施方案中，可以用感兴趣区域代替S。所述感兴趣区域是指视频帧中能反映目标物体的移动以及视觉上相关的区域。

选择最能体现物体移动特点的一部分视频帧S的其中一种机制可以是选择所有视频帧中最能代表目标物体的物体图像演变过程的视频帧。在一个具体技术实施方案中，只选择包含目标物体的图像的区域作为代表区域，以减少背景环境改变所带来的影响。所述代表区域记为R，整合起来总体上称为视频帧的感兴趣区域。

另一方面，如果移动目标物体在视频中是清晰可见并且有显著的移动，R也可以被认为是包含了在F中有显著移动和相关纹理的区域。划定所述区域是运算，检测复杂物体的要求，划定所述区域所需的运算量是大大小于在F中检测复杂物体的运算量的。如前所述，复杂物体的检测不能只检测其移动，要得出最终可靠的结果，还需要检测复杂物体的形状变化。

物体在视频图像中位置变动有两种类型：摄像机移动和目标物体自身移动。摄像机移动是指摄像机的移动导致物体在图像中的位置变动。目标物体自身移动是指目标物体自身的移动导致其在图像中的位置变动。为了更好的说明，本发明具体技术方案的检测视频是采用摄像机变焦，移动拍摄的，因为这种方式在电视节目录制中更为常用。

在具体实施方案中，采用划分区域检测方式来检测目标物体的移动情况，因为直接检测物体的摄像机移动运算复杂而且容易受目标物体自身移动的干扰。例如，通过分析F中相邻区域之间移动距离的差别，亦即相关的图像纹理信息，来判断属于目标物体自身移动区域。最佳情况是，视频图像F画面中划分判断出的背景区域都移动了相同的距离，并且其计算得出的距离也是正确的。

B_l表示F中代表目标物体自身移动的区域，B_g表示F中代表背景的区域。如果B_l和B_g在某视频帧中相邻，它们移动的距离就会不同。因此，所述感兴趣区域就是包括了在同一视频帧中具有不同移动距离的区域

但是在实际操作中，发生两个相邻区域的移动距离不相同的情况，通常还可能由以下几个原因造成：(a)距离测算错误，(b)摄像机焦距改变影响,(c)其中一个区域是物体图像O^*而另一个是图像背景。通常，距离测算错误是由区域图像纹理过低引起。图6A-6D描述了一段时装表演视频中一个视频图像有关O^*的感兴趣区域，其中O^*包括了模特。

图6A是一段模特在T形台上走动的视频的第一视频帧。摄像机跟随着模特的走动而移动，属于摄像机变焦移动的情况。图6B显示的是图6A中的一种感兴趣区域的划分。同样的，图6C是两个模特在T形台上相遇而摄像机进行了变焦的拍摄图像。图6D则是图6C的感兴趣区域，它有两个区域，分别对应两个模特。

如图6A-D所示，感兴趣区域虽然只是给出了包含目标物体的大概区域，但其非常有效去除了大部分背景区域。因此，能在后续加入更多能正确代表图像的图形信息。

更具体的，Fi表示当前视频帧，所述视频帧的多种参数正在被检测，检测的参数有：R_i，θ_z(B),ω_z(B),(z>0,正整数)，块状区域B在F_i和F_i+z之间的移动距离和移动幅度，H_z(.)表示B_i和B_j在F_i中移动距离的差异程度。

H_{z} (B_{i}, B_{j}) = \{\begin{matrix} 1 & if | \frac{θ_{z} (B_{j}) - θ_{z} (B_{i})}{θ_{z} (B_{i})} | &GreaterEqual; ρ \\ 0 & otherwise \end{matrix} - - - (1)

基于上述描述，依照上式计算，如果两个区域之间的系数超过ρ，那么，就判定这两个区域的移动距离有显著性差异。ρ是由F_i与F_i+z之间的背景相似程度决定的。图7A-7B描述了上述例子中两视频帧之间的背景相似程度。真实的移动角度在22.5度左右，一个不同的阴影代表了一个不同的角度，所述块状区域的大小在实施例中为32×32像素。

因此，如果移动角度显示，F_i和F_i+z之间的相似程度很高，如图7A所示，阈值ρ就会比较低。在这种情况下能够很好的分辨出目标物体自身移动和摄像机移动。但是，如果移动角度显示F_i和F_i+z之间的相似程度很低，如图7B所示，阈值ρ将会非常高以至于无法在背景中分辨出两种区域是否存在移动距离的差别。

实际上，有许多中基于移动角度检测两视频帧之间离散程度的方法。其中一种是计算移动角度的(变化)频率。如果计算得出其最高频率低于一个预设的标准值，则认为两者之间离散程度比较低。

另外，τ(B)表示衡量区域B的图像质量指标，Π(B)表示区域B的周边相邻区域。例如，τ(B)可以由B的像素等级的强度变化决定，Π(B)是分别各自与区域B四条边相邻四个区域。

因此，结合移动角度，粗糙程度以及移动角度在相邻等级的差别来决定R_i的问题就变成了一个二元区域判断问题，通过像素标签的图像数据在预设算法的运算结果判断。例如，令F_i中的区域数量为T，F＝B₁∪...∪B_T。令B_i的判断条件为l_i∈{0,1}，那么，进行判断的内容就是{0,1}^T，l_i为0时表示属于背景移动，l_i为1时则表示属于物体自身移动。

表示区域B_i判断标志的成本函数。其通过判断标志l_i按照下式计算：

E_{i}^{d} (l_{i}) = \{\begin{matrix} ξ_{d} & if l_{i} {1 - sign (ω_{z} (B_{i}))} > 0 \\ ξ_{d} & if l_{i} {1 - sign [τ (B_{i}) \underset{B_{j} &Element; Π (B_{i})}{Σ} H_{z} (B_{i}, B_{j})]} sign (ω_{z} (B_{i})) > 0 \\ ξ_{d} & if (1 - l_{i}) {sign [τ (B_{i}) \underset{B_{j} &Element; Π (B_{i})}{Σ} H_{z} (B_{i}, B_{j})]} sign (ω_{z} (B_{i})) > 0 \\ ξ_{d}^{τ_{m}} (τ (B_{i})) & if l_{i} {sign [τ (B_{i}) \underset{B_{j} &Element; Π (B_{i})}{Σ} H_{z} (B_{i}, B_{j})]} sign (ω_{z} (B_{i})) > 0 \\ 0 & otherwise \end{matrix} - - - (2)

当sign(.)的幅角为0时，函数值取0，否则取1，并且ξ_d成本值大于0，而是另一个成本值大于0的变量。它的成本值取决于B_i的粗糙程度与最低粗糙程度τ_m的差别。基本的，和的所需的成本取决于目标区域以及其邻近区域的移动。对于判断标志l_i，依据上式，其所需成本取决于下述不同情况：

1﹑如果B_i被判断为目标物体自身移动区域，而它又没有移动的话，它的成本值为ξ_d。那就是说，某区域如果没有移动的话，它应该不存在目标物体自身移动。此时，若移动角度大于0，则按下述情况继续判断。

2﹑如果B_i被判断为目标物体自身移动区域，而它的纹理为0或者与相邻区域的移动是一样的话，它的成本值为ξ_d。那就是说，当某区域没有纹理，或者与周边区域的移动相比没有显著性的差异，也认为这一块状区域应该不存在目标物体自身移动。当

τ (B_{i}) Σ_{B_{j} &Element; Π (B_{i})} H_{z} (B_{i}, B_{j}) = 0

并且l_i＝1时，适用本情形。

3﹑如果B_i的纹理不为0，其移动与周边区域的有显著性差异时，其判断标准有两种成本取值。若时，适用本情形。如果l_i＝0，B_i被判断为背景移动时，它的成本值为ξ_d；如果l_i＝1，B_i被判断为前景的移动时，它的成本值为其成本值受B_i，例如，τ(B_i)的纹理质量影响。适用上式的条件是当B_i的纹理质量过低时，B_i不能被判断为前景的移动。因为此时B_i很有可能实际上属于背景移动或者其移动测算不准确。当τ(B_i)低于τ_m时，令最接近的τ(B_i)为0.

另外，E^p(l_i,l_j)表示另一个成本函数，用于在计算判断标准中加入平滑因子

E^{p} (l_{i}, l_{j}) = \{\begin{matrix} ξ_{p} & if l_{i} &NotEqual; l_{j} \\ 0 & otherwise \end{matrix} - - - (3)

也就是说，E^p(l_i,l_j)拒绝两个相邻的块状区域有不同成本值ξ_p不同判断标准。对和E^p赋值后，如何选择感兴趣区域的问题变成了下式中的区域判断问题。

\min imize M (l_{1}, . . ., l_{T}) = Σ_{i = 1}^{T} E_{i}^{p} (l_{i}) + \underset{i < j}{Σ} E^{p} (l_{i}, l_{j}) - - - (4)

另一个成本函数M(l₁,...,l_T)也被称为伊辛模型(lsing model)，用来解决如何在正确构建的图像上使用最小割算法的问题。在图像构建完成后，运用Edmon-Kary算法，多项式时间内可求解最小割。

在物体检测模块310使用感兴趣区域s代表了V中的视频帧后，它在限制运算时间内从中选择最能代表物体图像演变过程的另外，由于选择上述S中的感兴趣区域的过程消耗了一部分的运算能力，分配给D_o(S)的运算能力比例也相应下降。

Q(S)表示s代表物体图像演变过程的充分程度。表示分配给D_o(S)的运算能力比例。R_T(S)表示S消耗的时间。表示用于选择感兴趣区域s的以消耗的运算能力部分。总结来说，检测模块选择最优S^*通过下式得出最优解来完成：

\max imize Q (S) subject to R_{C}^{D} (S) \leq γN - R_{C}^{R} (V) and R_{T} (S) \leq κN - - - (5)

可预想到的是，在考虑限制计算能力和限制运算时间内，框架从V中尽可能多地选择视频帧，当S的基数增加时，充分程度Q(S)也会增加。在满足所述限制时，在相同基数S对应的多种选择下，可以选择最大的充分程度Q(S)。然而，如果是不同基数对应的选择，可以选择最大的基数对应的集合。

为了确定各组S的质量Q(.)，感兴趣区域上进行的目标物体形态以及全局内容范围的判断标准可以用以获得物体图像演变过程的一个理想的总结。包含所需的目标物体形态的视频帧确保了该视频帧中的感兴趣区域与相邻视频帧的感兴趣区域相似，也代表着这是同一物体的物体图像演变过程。选出视频帧包括一个大的内容范围时会产生出那些感兴趣区域有显著差异的重点视频帧，确保包含尽可能多同一物体在物体图像演变过程中出现的不同方向的视图。

更详细的，的目标物体形态被定义为

B_{LR} (a_{i}) = \{\begin{matrix} C (R_{a_{i - 1}}, R_{a_{i}}) & if i = N_{1} \\ \frac{C (R_{a_{i - 1}}, R_{a_{i}}) + C (R_{a_{i}}, R_{a_{i + 1}})}{2} & otherwise \end{matrix} - - - (6)

C(.)是衡量两个感兴趣区域之间相似程度的系数。计算这一系数是简单，容易，不占用太多运算能力的。更详细的，C(.)包括了图像相似程度和移动相似程度。也就是说，结合移动相似程度参数后，能够快速有效的计算可视的图像相似部分(例如，颜色直方图)并且所有相似程度的影响都能得到更好的显现。C(.)由下式定义：

C (R_{a_{i}}, R_{a_{j}}) = δV (R_{a_{i}}, R_{a_{j}}) + (1 - δ) M (R_{a_{i}}, R_{a_{j}}) - - - (7)

V(.)是衡量两个感兴趣区域之间低水平图像相似程度的函数，M(.)是衡量两个感兴趣区域之间移动相似程度的函数。感兴趣区域的图像内容可以通过YCbCr颜色直方图以及V(.)来表示，而此时V(.)表示余弦相似。可以使用任何相似程度的取值范围在0-1之间的图像特征以及相似程度的衡量方式。函数M(.)可以被定义为：

M (R_{a_{i}}, R_{a_{j}}) = \frac{\min (&upsi; (R_{a_{i}}), &upsi; (R_{a_{j}}))}{\max (&upsi; (R_{a_{i}}), &upsi; (R_{a_{j}}))} - - - (8)

υ(R)表示R中块状区域的平均移动距离。也可以使用其他相似程度衡量方式使得他们的图像取值在0-1之间。

更详细的，到确定的图像内容范围通过下式定义：

B_{CC} (a_{i}, a_{j}) = \{\begin{matrix} 0 & if i = 0 \\ V (R_{a_{i}}, R_{a_{j}}) & otherwise \end{matrix} - - - (9)

因此，如果B_CC(a_i,a_j)的值比较低的话，到有一个非常大的图像内容范围。

依照上述的定义，一个高质量的S应该是的值高而的值低。Q(S)可以由下式定义：

Q (S) = Σ_{i = 1}^{N_{S}} {η B_{LR} (a_{i}) + (1 - η) [1 - B_{CC} (a_{i - 1}, a_{i})]} - - - (10)

其中，η是0-1之间的权重参数。Q(S)不受S的数量影响，S的数量是Q(.)的本质特征参数。

另外，对可用于S的运算时间和计算能力比例以及决定感兴趣区域所消耗的运算能力的测量方法是必需的。令R_T(.)，和如下式所示：

R_T(S)＝N_S (11)

R_{C}^{D} (S) = \underset{a_{i} &Element; S}{Σ} g_{D} (a_{i}) - - - (12)

R_{C}^{R} (V) = Σ_{i = 1}^{N} g_{R} (i) - - - (13)

函数g_D(a_i)用于计算D_o(.)所占用的计算能力，g_R(i)用于计算选择R_i所消耗的计算能力。

因此，R_T(S)是S所消耗的时间，也就是S中包含的视频帧数。表示能用于运行D_o(.)计算每个s中的感兴趣区域的计算能力。是总计用于选择感兴趣区域s的运算量。

特别指出的是，g_R(i)可以在解出最优解方程式(5)前被计算出。但不包括g_D(a_i)的这种情况，因为g_D(.)只有在最优解解出之后才能应用。函数g_D(.)可以被定义为，例如，ζ表示常数，表示的像素。在本具体技术实施方案中，D_o(.)计算感兴趣区域的所需的运算量是与的图像像素成正比例关系。也可以用其他能够代表这一变量的函数代替。

在相同的运算量下，用D_o(.)检测感兴趣区域能够检测更多的视频帧的特征，因为感兴趣区域的像素总是小于整个视频帧的大小。另外，只检测感兴趣区域还可以消除假阳性结果因为检测区域局限在感兴趣区域。当然，这取决于感兴趣区域的质量。

因此，依据上述参数，方程式(5)如下式表示：

\max imize Q (S) = Σ_{i = 1}^{N_{S}} {η B_{LR} (a_{i}) + (1 - η) [1 - B_{CC} (a_{i - 1}, a_{i})]}

subject to R_{C}^{D} (S) \leq γN - R_{C}^{R} (V) and R_{T} (S) \leq κN - - - (14)

等式14所表示的最佳选择问题的最优解是存在并且可以解出的。例如，关于S的一个最优解可以通过拉格朗日乘法和动态规划得到。更具体的，所述最优化问题在经过拉格朗日松弛法优化后可以由如下式子表示：

\max imize J_{λ_{1}, λ_{2}} (S) = Σ_{i = 1}^{N_{S}} {η B_{LR} (a_{i}) + (1 - η) [1 - B_{CC} (a_{i - 1}, a_{i})]} - λ_{1} R_{C}^{D} (S) - λ_{2} R_{T} (S) - - - (15)

\begin{matrix} = Σ_{i = 1}^{N_{S}} {η B_{LR} (a_{i}) + (1 - η) [1 - B_{CC} (a_{i - 1}, a_{i})]} - λ_{1} Σ_{i = 1}^{N_{S}} g_{D} (a_{i}) - λ_{2} Σ_{i = 1}^{N_{S}} 1 \\ = Σ_{i = 1}^{N_{S}} {η B_{LR} (a_{i}) + (1 - η) [1 - B_{CC} (a_{i - 1}, a_{i})] - λ_{1} g_{D} (a_{i}) - λ_{2}} \end{matrix}

λ₁≥0和λ₂≥0是拉格朗日因子，如果存在和使

S^{*} = \arg \max_{S} J_{λ_{1}^{*}, λ_{2}^{*}} (S),

并且同时有

R_{C}^{D} (S) \leq γN - R_{C}^{R} (V)

以及R_T(S)≤κN。那么，S^*也是问题14的一个最优解。

更详细的，当拉格朗日因子从0摆动到正无穷时，问题14的解从收益(例如：质量)和成本(例如：消耗的运算量和时间)最优解(即使用最小的成本获得最大收益的情况)的集合的凸包中寻找。该凸包是一个非增函数。因此，可以用对分法来寻找和的值。因此，如果能够找到非限制问题(15)的最优解，那么，关于限制性问题(14)的和凸包的近似值也能够相应被确定。

更详细的，为了找出最优化问题的方程式15的解，需要有一个有效的动态规划方法。首先，构建一个成本函数G_k(a_k)，表示了S的前k项的最大成本总和，然后a_k是指S的第k项。显然，的最大值必然包含了的最大值。另外，G_k+1(a_k+1)可以被表述成：G_k+1(a_k+1)＝G_k(a_k)+{ηB_LR(a_k+1)+(1-η)[1-B_CC(a_k,a_k+1)]-λ₁g_D(a_k+1)-λ₂} (16)

上式表明了，在一视频帧中选择出的k^th指示物并不取决于在之前那些在一视频帧中选择出来的指示物。

这个回归结果，形成了一个新的最优解问题的求解步骤，其不同于利用上述动态规划求出最优解的方法。因此，所述问题可以看成如何在权重，DAG图中找出最长路径。

I表示视频帧中的一组指示物，对应在所述直线非循环图中的一组顶点。所述直线非循环图中的线段组合则是I²的子集。因为S的视频帧中的指示物必须遵循他们之间的时间顺序排列。当指定一个在S或者O(I²)集合中的初始指示物时，能够在O(I²)的集合中找到DAG图中最长路径。

在确定了最优的一个帧的集合后，使用预先设置的物体检测算法检测目标物体的出现。更具体的，目标检测模块通过分析所确定的最优的一个帧的集合的感兴趣区域部分，得到物体在图像中出现情况的运算结果，并将该结果存储于目标出现466中。生成这个结果后，就可以进行其他后续的处理操作，例如依据检测目标实现用户电视机互动。

利用上述公开的方法和系统，可以实现智能图像识别及人机互动的应用。这些应用有非常多的好处。上述方法和系统在检测框架中设置运算能力限制和处理频率限制。所述的检测框架能够在视频图像序列中检测移动物体，复杂物体以及移动的复杂物体。在这个意义上说，所述检测框架能够升级拓展其运算能力以适应预先设置的限制并由此生成最终结果。

换句话说，所述检测框架的升级拓展能力与它能够适应的预先设置的限制比例有关。首先，所述检测框架通过感兴趣区域很好的代表了视频中视频帧的目标物体移动信息。感兴趣区域是指依据目标物体在图像中的显著移动以及纹理信息划分的一个包括移动物体的区域。这样的操作使得所述检测框架可以忽略大部分不相关的背景信息，从而更好的描述移动物体。划分感兴趣区域的问题事实上转化为一个判断区域类型的问题。这个判断问题在本系统复杂程度之内。

第二，所述检测框架通过感兴趣区域的画面和移动两个参数，在运算能力和处理频率限制的范围内选择视频中最能代表目标物体的图像。选择的视频帧的质量与局部区域特征以及全局背景数据相关。因此，所述检测框架选择最能代表视频中移动物体信息的一个特定的帧的集合。更具体的，选择最优的一个特定的帧的集合的事实上转化为一个寻找最优解问题。所述寻找最优解问题通过拉朗格日乘数法以及动态规划方法获得最优解。

第三，所述检测框架将选择出的最优的一个特定的帧的集合交给目标检测组件运行，得出最终的检测结果。所述目标检测组件在计划框架之外。

因此，上述公开的具体实施技术方案在考虑运算能力和处理频率限制的基础上，选择出最能代表视频中移动物体信息的一个特定的帧的集合。感兴趣区域包含了移动目标物体并显示了目标物体的显著移动以及相关画面图像。上述公开的方法和系统分析的是这些从优选视频帧中切割形成的感兴趣区域。所述目标检测组件运行，计算这些优选的视频帧中的感兴趣区域。

上述公开的系统和方法还可以应用于许多不同的设备以提供给用户独特的人机互动体验，例如手提电话，掌上电脑，个人电脑，手表等。对本发明公开的系统和方法应用于不同领域，进行改进，替换，调整或者相当于本发明所公开的具体技术实施方案都是本领域普通技术人员不通过创造性劳动就能实现的。

Claims

1.一种物体检测方法，其特征在于，包括如下步骤：

采集一段与视频相对应的视频图像序列；

从所述视频图像序列中获取若干个视频帧；

确定运算能力限制以及处理频率限制；

根据所述运算能力限制和处理频率限制，从所述视频图像序列中的若干个视频帧中选择一个或者多个感兴趣区域；

根据感兴趣区域从所述若干个视频帧中选出一个特定的帧的集合，所述特定的帧的集合用于代表所述若干个视频帧的物体图像演变过程；以及

根据所选出的特定的帧的集合检测目标物体的出现，以使检测目标出现所占用的运算能力值在所述运算能力限制的范围内，检测目标出现所处理的总帧数在所述处理频率限制的范围内。

2.依据权利要求1所述的物体检测方法，其特征在于，从视频图像序列中的若干个视频帧中选择一个或者多个感兴趣区域的步骤还包括：

计算所述若干个视频帧的移动和纹理数据。

3.依据权利要求2所述的物体检测方法，其特征在于，从视频图像序列中获取的若干个视频帧中选择一个或者多个感兴趣区域的步骤还包括：

将移动数据分解为移动角度以及移动距离；

依据移动角度和移动距离使用区域标记算法选择感兴趣区域，所述选择出的感兴趣区域包含了所述若干个视频帧中有显著移动以及相关纹理的区域。

4.依据权利要求3所述的物体检测方法，其特征在于，所述区域标记算法具体包括：

当某区域移动为0时，该区域被判断为没有自身移动；

当某区域与其他相邻区域无显著移动或者纹理改变，该区域被判断为没有自身移动，以及

当某区域的粗糙程度低于阈值时，该区域被判断为没有前景移动。

5.依据权利要求1所述的物体检测方法，其特征在于，所述若干个视频帧由S表示，从所述若干个视频帧中选择的一个特定的帧的集合的帧数由N表示，所述S代表物体图像演变过程的质量由Q(s)表示，S的检测模块由D_o(S)表示，运行D_o(S)所占用的运算能力由表示，S的运算时间消耗由R_T(S)表示，获取若干个视频帧中的感兴趣区域所占用的运算量由表示；γ表示运算能力限制，κ代表运算处理频率限制，所述从若干个视频帧中选出一个特定的帧的集合的步骤还包括：

通过以下公式求解最优解问题，选出所述特定的帧的集合：

\max imize Q (S) subject to R_{C}^{D} (S) \leq γN - R_{C}^{R} (V) and R_{T} (S) \leq κN .

6.依据权利要求5所述的物体检测方法，其特征在于，所述步骤还包括：

使用动态规划算法来求解最优解问题。

7.依据权利要求6所述的物体检测方法，其特征在于，所述动态规划算法还包括：

利用局部区域特征以及内容覆盖信息代表一个可能的帧的集合的质量；

依据每个帧的集合的质量，在每个集合中可能是相邻的两视频帧之间建立联系；

创建有向无环图，以及

使用动态规划算法在有向无环图中找出最长路径。

8.依据权利要求1所述的物体检测方法，其特征在于，在所述根据所选出的特定的帧的集合检测目标物体的出现的步骤还包括：

在所述的选出的特定的帧的集合上进行目标检测，检测目标物体的出现情况。

9.一种物体检测系统，其特征在于，所述系统包括：

预处理模块，用于采集一段与视频相对应的视频图像序列；从所述视频图像序列中获取若干个视频帧；确定运算能力限制以及处理频率限制；

目标检测模块；

所述目标检测模块具体包括：

感兴趣区域计算单元，用于根据所述运算能力限制和处理频率限制，从所述视频图像序列中的若干个视频帧中选择一个或者多个感兴趣区域；

最优视频帧选择单元，用于根据感兴趣区域从所述若干个视频帧中选出的一个特定的帧的集合，用于代表所述若干个视频帧的物体图像演变过程；以及

目标检测单元，用于根据所选出特定的帧的集合，检测目标物体的出现，并且检测目标出现所占用的运算能力值在所述运算能力限制范围内，检测目标出现所处理的总帧数在处理频率限制的范围内。

10.依据权利要求9所述的物体检测系统，其特征在于，所述感兴趣区域计算单元还包括：

物体移动和纹理数据采集子单元，用于计算所述若干个视频帧的移动和纹理数据。

11.依据权利要求10所述的物体检测系统，其特征在于，所述物体移动和纹理数据采集子单元还包括：

距离和角度测算组件，用于将移动数据分解为移动角度和移动距离；图像表达组件，用于依据移动角度和移动距离，使用区域标记算法来选择感兴趣区域；所述感兴趣区域包含了若干个视频帧中有显著移动以及相关纹理的区域。

12.依据权利要求11所述的物体检测系统，其特征在于，所述图像表达组件，还用于判断：

当某区域移动为0时，该区域被判断为没有自身移动；

13.依据权利要求9所述的物体检测系统，其特征在于，所述最优视频帧选择单元，还用于：

通过以下公式求解最优解问题，选出所述特定的帧的集合：

\max imize Q (S) subject to R_{C}^{D} (S) \leq γN - R_{C}^{R} (V) and R_{T} (S) \leq κN,

所述若干个视频帧由S表示，从所述若干个视频帧中选择的一个特定的帧的集合的帧数由N表示，所述S代表物体图像演变过程的质量由Q(s)表示，S的检测模块由D_o(S)表示，运行D_o(S)所占用的运算能力由表示，S的运算时间消耗由R_T(S)表示，获取若干个视频帧中的感兴趣区域所占用的运算量由表示；γ表示运算能力限制，κ代表运算时间速率限制。

14.依据权利要求13所述的物体检测系统，其特征在于，所述最优视频帧选择单元还用于使用动态规划算法来求解最优解问题。

15.依据权利要求14所述的物体检测系统，其特征在于，所述最优视频帧选择单元还包括：

图像质量计算子单元，用于利用局部区域特征以及全局背景数据来代表一个可能的帧的集合的质量；

最优路径选择组件，用于依据每个可能的帧的集合的质量，在每个帧的集合中可能是相邻的两视频帧之间建立联系；创建一幅有向无环图，以及使用动态规划算法在有向无环图中解出最长路径。

16.依据权利要求9所述的物体检测系统，其特征在于，所述目标检测单元还包括：

目标检测组件，用于在所述的特定的帧的集合上进行目标检测，以检测目标物体的出现情况。