CN105554456B

CN105554456B - 视频处理方法和设备

Info

Publication number: CN105554456B
Application number: CN201510964922.9A
Authority: CN
Inventors: 俞刚; 李超; 何奇正; 印奇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2018-11-23
Anticipated expiration: 2035-12-21
Also published as: CN105554456A

Abstract

本发明公开了一种视频处理方法和设备。该视频处理方法包括以下步骤：获取待处理视频；对于待处理视频中的每帧原始图像，进行前景提取，以获得前景图像；对前景图像进行分块，以获得前景块；对待处理视频中的同一前景块在时空域上进行关联，以获得块管道；以及基于块管道进行视频分析。根据本发明提供的视频处理方法和设备，基于分块和前景块关联跟踪的方式来处理视频，可以有效快速地对视频数据进行诸如浓缩的分析处理。

Description

视频处理方法和设备

技术领域

本发明涉及视频处理领域，具体涉及一种视频处理方法和设备。

背景技术

随着监控视频的普及和对安全问题的日益关注，对于监控视频数据的智能分析，特别是视频场景中的行人和车辆分析，有着紧迫的需求。但是随着视频摄像头数量的增加以及高清摄像头的普及，监控视频的数据量呈现爆发式的增长。对监控视频数据的处理需要花费很多人力和时间。因此自动化的视频处理就非常重要。

因此，需要一种快速准确地对视频数据进行处理的方法。

发明内容

鉴于上述问题，提出了本发明以便提供一种至少部分地解决上述问题的视频处理方法和设备。

根据本发明一个方面，提供了一种视频处理方法。该视频处理方法包括以下步骤：获取待处理视频；对于待处理视频中的每帧原始图像，进行前景提取，以获得前景图像；对前景图像进行分块，以获得前景块；对待处理视频中的同一前景块在时空域上进行关联，以获得块管道；以及基于块管道进行视频分析。

根据本发明另一方面，还提供了一种视频处理设备，包括获取装置、前景提取装置、分块装置、关联装置和视频分析装置。获取装置用于获取待处理视频。前景提取装置用于对于待处理视频中的每帧原始图像，进行前景提取，以获得前景图像。分块装置用于对于待处理视频中的每帧原始图像，对前景图像进行分块，以获得前景块。关联装置用于对待处理视频中的同一前景块在时空域上进行关联，以获得块管道。视频分析装置用于基于块管道进行视频分析。

根据本发明提供的视频处理方法和设备，基于分块和前景块关联跟踪的方式来处理视频，可以有效快速地对视频数据进行诸如浓缩的分析处理。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出根据本发明一个实施例的视频处理方法的流程图；

图2示出根据本发明一个实施例的对原始图像进行前景提取和分块的示意图；

图3示出根据本发明一个实施例的对前景块进行关联的示意图；以及

图4示出根据本发明一个实施例的视频处理设备的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本发明一个方面，提供了一种视频处理方法。图1示出根据本发明一个实施例的视频处理方法100的流程图。如图1所示，该视频处理方法100包括以下步骤。

在步骤S110，获取待处理视频。

待处理视频可以是来自任何合适的设备的视频，本文不对此进行限制。例如，待处理视频可以是来自监控摄像头的视频。监控摄像头所处的位置和场景不受限制。监控摄像头可以有线或无线地与本文所述的视频处理设备相连。例如，监控摄像头可以通过网线与视频处理设备相连。视频处理设备可以是后端云端服务器或本地录像服务器。假设存在多路摄像头，可以给予每路摄像头唯一的标号，然后将每路摄像头的视频数据导出到视频处理设备中用于进一步处理。此外，可以理解的是，可以将来自监控摄像头的视频数据存储在视频库中，以在需要时使用。

在步骤S120，对于待处理视频中的每帧原始图像，进行前景提取，以获得前景图像。

可以针对每路视频数据(即待处理视频)进行单独的前景提取操作和后续分块操作。在进行前景提取之前，可以首先提取待处理视频的静态的背景信息。提取背景信息的方法有很多，下面举例说明。例如，可以在待处理视频前面的视频中选取一段干净的没有任何前景内容的视频，然后对该段视频中的每个像素的颜色进行概率建模，得到一个近似的概率分布(即高斯分布)模型。该概率分布模型可以称为背景模型。可以理解的是，可以基于背景模型生成背景图像。可以使用背景模型来对待处理视频中的每帧原始图像进行前景或者背景的判别。也就是说，可以利用背景模型对待处理视频中的每帧原始图像进行前景提取。

如果待处理视频来自摄像头并且摄像头是运动的，则在进行前景提取之前，可以对待处理视频进行运动补偿。通过运动补偿，可以使得补偿后的每帧原始图像上的每个像素的物理位置与背景图像上面的同一像素的物理位置相对应。具体地，可以对摄像头的运动方向进行估计，然后反向对当前获取的原始图像进行平移。对于帧率大于20帧每秒的摄像头，简单的运动补偿足以将每帧图像配准到其正确位置。

如果是静态的摄像头，也就是摄像头是静止不动的，则不需要做任何运动补偿。

可以将补偿后的原始图像与背景模型进行对比，以获得前景图像。例如但不限于如下方法：利用背景模型估计原始图像中的每个像素属于背景的概率，如果概率小于一定阈值，则认为其属于前景，否则其属于背景。随后可以对获得的前景图像进行平滑操作，例如进行中值滤波，以得到最终的前景图像。如果前景图像中存在阴影，则可以通过阴影检测算法去除前景图像中的阴影部分。阴影检测算法主要根据两个物理原理。首先阴影部分的光线亮度比非阴影部分更暗。另外阴影部分会保存地面本身的纹理信息。通过阴影检测算法可以找到阴影区域，然后可以从前景图像中去除该阴影区域。随后可以对剩余的前景图像进行下一步的分块操作。

图2示出根据本发明一个实施例的对原始图像进行前景提取和分块的示意图。如图2所示，原始图像210中包括建筑物、行人和汽车等信息。行人和汽车是能够运动、能够变化的，它们属于前景，而建筑物是恒定不变的，属于背景。前景提取可以将背景与前景分离。经过前景提取之后所获得的前景图像如图像220所示。

在步骤S130，对于待处理视频中的每帧原始图像，对前景图像进行分块，以获得前景块。

块(Blob)，也可以称为连通区域，一般是指前景图像中具有相同像素值并且位置相邻的像素点所组成的图像区域。分块是将前景图像中的每个独立的、不与其它块连通的块分割出来。对前景图像进行分块的方法可以包括但不限于两边扫描(Two-Pass)法、种子填充(Seed-Filling)法等，本文不对此进行赘述。

继续参考图2，对前景图像220进行分块之后，可以获得图像230。在图像230中，分出了三个前景块，一个前景块包括汽车，另外两个前景块均包括行人。

可选地，在对前景图像进行分块之后，还可以对每个前景块中的信息进行估计，以获知每个前景块中包括多少前景物体。前景物体可以包括行人、汽车等物体。如图2所示，可以估计出图像240中的三个前景块分别包括三个人、一辆汽车和一个人。将这些信息汇总起来，可知图像240中共有四个行人和一辆车。

可选地，对于每个前景块，还可以根据需要进行进一步细分，得到子前景块。具体来讲，就是可以定位出前景块中的每个行人和车辆等前景物体的具体位置。细分的方法可以采用但不限于行人检测和车辆检测算法。将前景块细分为子前景块之后，可以将子前景块作为最终的前景块进行后续的关联和视频分析操作。

在步骤S140，对待处理视频中的同一前景块在时空域上进行关联，以获得块管道。

具体来讲，就是针对每一前景块，将其在包括其的两个相邻原始图像之中的时间信息和空间信息进行关联。图3示出根据本发明一个实施例的对前景块进行关联的示意图。如图3所示，在第t帧原始图像中检测到三个前景块，每个前景块被给予一个唯一的标识符(ID)，分别为1，2和3。因此，这三个前景块可以描述为前景块1，前景块2和前景块3。随后在第t+1帧原始图像中，同样检测到了这三个前景块。因此，可以将这两帧原始图像中的对应前景块关联起来。以此类推，可以将第t+2帧原始图像中的三个前景块分别与第t+1帧原始图像中的三个前景块进行关联。对某一前景块，例如前景块1来说，假设其一共在十帧之中出现，则可以在这十帧或十帧中的一部分连续的帧中进行两两关联。

前景块的关联可以使用匈牙利算法来实现，本文不对此进行赘述。最后得到的是每个前景块的一个跟踪结果，其在形式上是一个时空域上的三维管道(tube)，即本文所述的块管道。可以理解的是，一个块管道与一个前景块相对应，该块管道包括与其对应的前景块的时间信息和空间信息。这样，实际上可以得到每个前景块的运动信息。

在步骤S150，基于块管道进行视频分析。

在将前景块关联起来之后，获得了包含前景块的时间信息和空间信息的块管道。这样，可以基于这样的块管道分析各前景块的特征或运动情况，从而可以进一步基于特征进行视频检索或基于运动情况进行视频浓缩。

根据本发明提供的视频处理方法，基于分块和前景块关联跟踪的方式来处理视频，可以有效快速地对视频数据进行诸如浓缩的分析处理。

可选地，步骤S150可以包括：基于块管道进行视频浓缩。

具体来讲，就是可以使每个块管道在时间轴上面前后移动，但需要保持空间上的位置不变。这样，可以将多帧原始图像压缩在一起，使得经浓缩的视频从内容上看更加充实。

对于视频浓缩，常规的思路是基于关键帧(key frame)或者关键段(keysegment)。具体来讲，基于关键帧的视频浓缩是将视频帧按特征聚类，然后将比较显著的视频帧提取出来形成经浓缩的视频。这样做的好处是速度很快，但带来的问题是会丢失物体或者行人的运动信息。如果发生诸如打架等的异常行为，这些关键的运动信息就会被丢失。另一方面，基于关键段的视频浓缩则可以保留视频的运动信息，但处理速度会比较慢，因为聚类是以分段的形式聚类，同时经浓缩的视频往往会比较长，影响视频浓缩的效果。

基于块管道来进行浓缩视频，可以得到较好的视觉效果，同时能极大地减少需要浏览的视频数量。并且，采用该方法的视频浓缩可以不丢失任何有价值的数据。因此，本实现方案可以在保留视频的运动信息的同时有效快速地对视频数据进行浓缩，以方便实时准确地对视频内容进行浏览和检索，这样可以有效地节约监控人力和时间。

为了使视频在浓缩后获得更好的视觉效果，可以设置一些视频浓缩的约束条件。约束条件可以包括但不限于以下几个：

(1)在经浓缩的视频中，各个块管道在时空域上面的重叠区域尽可能少；

(2)在经浓缩的视频中，先出现的块管道尽可能放在后出现的块管道的前面，保持块管道之间的时间顺序，但是可以不保留具体的时间间隔；

(3)经浓缩的视频的时间长度具有上限，即时间阈值。时间阈值与经浓缩的视频中的图像数目(帧数)相对应。因此，本约束条件相当于限定了经浓缩的视频中的图像数目具有数目阈值。

为了满足上述约束条件中的至少一个，本发明提出以下实施例。

可选地，进行视频浓缩可以包括：如果块管道中的任何一个的时间长度大于时间阈值，则切割该时间长度大于时间阈值的块管道，以形成时间长度小于或等于时间阈值的多个块管道；根据块管道中的所有块管道(包括通过切割时间长度大于时间阈值的块管道形成的时间长度小于或等于时间阈值的块管道)的总时间长度以及时间阈值，估计块管道的平均重叠长度；以及将块管道中的所有块管道依次叠加在背景图像上，以获得经浓缩的视频，其中，在每次叠加块管道时，使得所叠加的块管道与前一块管道之间以平均重叠长度发生重叠。

具体地，可以首先对时间长度大于时间阈值的块管道进行切割，使得经过切割之后所得到的每个块管道的长度都小于或等于时间阈值，其中，每个块管道可以在时间上尽快能地长并且是连续的。

随后，可以根据块管道中的所有块管道的总时间长度以及时间阈值，估计块管道的平均重叠长度。例如，假设共有三个块管道，第一个块管道的时间长度是20秒，第二个块管道的时间长度是15秒，第三个块管道的时间长度是30秒。另外，假设时间阈值是50秒。这样，三个块管道的总时间长度是65秒。为了使得经浓缩的视频的时间长度不超过时间阈值，则三个块管道需要发生重叠。平均重叠长度可以通过以下公式计算：t＝(T_总-T_D)/(N-1)，其中t是平均重叠长度，T_总是总时间长度，T_D是时间阈值，N是块管道的数目。根据以上公式可以计算出上述三个块管道的平均重叠长度是7.5秒。可以理解的是，如果以图像数目进行计算，则如果获得的平均重叠长度所对应的图像数目不是整数的话，可以向上取整。例如，假设对于经浓缩的视频来说，每秒显示一帧图像，则上述平均重叠长度可以取8秒，对应的图像数目是8帧。

随后，可以将块管道一个一个叠加在背景图像上，或者说是放置在视频空间中。除了第一个块管道以外，每次放置块管道的时候，使得放置后的块管道与前一个已经放置好的块管道在时间上存在大小等于平均重叠长度的重叠部分。这是一种贪心(greedy)的方法。可以按照这种贪心方法将所有块管道逐个放置在视频空间中。可以理解的是，在这个叠加过程中，块管道所对应的前景块的空间位置未变，但是时间可能发生了前后移动。最后得到的视频就是经浓缩的视频。

这里的背景图像可以是事先提取的，也可以在进行前景提取时获得。可以理解的是，对于一般的监控摄像头来说，其位置通常是不变的，因此其采集到的背景信息也通常是不变的。因此，可以在监控摄像头安装之时采集一次不包含任何前景信息的图像，从中计算出背景模型，获得背景图像。随后，可以每隔一段时间重新提取背景信息并更新背景图像。对于来自同一监控摄像头的视频数据，在进行视频浓缩时可以无需针对每帧原始图像提取背景信息。对某一段连续的视频数据，可以采用相同的背景图像来进行视频浓缩。

通过上述方式，可以使得尽量在不丢失前景物体的运动信息的情况下避免各前景物体的重叠，以使得经浓缩的视频具有较好的视觉效果，便于对视频内容进行快速的浏览。

可选地，在将块管道中的所有块管道依次叠加在背景图像上之前，进行视频浓缩可以进一步包括：将块管道中的所有块管道按照时间长度降序排列，其中，如果两个块管道的时间长度相同，则将先发生的块管道放在后发生的块管道前面。将块管道中的所有块管道依次叠加在背景图像上可以包括：将块管道中的所有块管道按照排列好的顺序叠加在所述背景图像上。

可以将所有块管道按时间上的长短进行排列，如果时间长度相同，则将先发生的块管道放在前面。随后，对排列好的块管道按顺序一个一个放置在视频空间中。这样，可以使得在经浓缩的视频中尽量保持各块管道之间的原始时间顺序，从而尽量正确反映前景物体的活动顺序，以免对视频的监控人员造成时间上的干扰。

可选地，步骤S150可以包括：基于块管道进行视频检索。

对于视频中的每个块管道，可以建立索引。通过用户给出的关键词或需要搜索的图像，可以快速地在视频库中定位出相似的对象。对于大数据量的视频来说，自动化视频检索是至关重要的。例如，假设警方试图寻找某个特定穿着的嫌疑人，如果通过人工查找可能需要耗费很多时间和精力，不利于快速地破案。通过基于块管道的自动视频检索，可以更高效并且有针对性地过滤视频数据。可以快速定位出监控场景中的希望查找的可疑人物，给予警方更多反应时间。

可选地，进行视频检索可以包括：接收待搜索图像；提取待搜索图像的特征；提取块管道中的每一个所对应的前景块的特征；将待搜索图像的特征与块管道中的每一个所对应的前景块的特征相比较，以确定待搜索图像与块管道中的每一个所对应的前景块之间的相似度；基于相似度确定期望前景块；以及输出期望前景块所对应的原始图像，以供用户查看。

可以由用户提供待搜索图像，即用户希望搜索的物体的图像。待搜索图像可以是例如某个犯罪嫌疑人、某辆车或者某个包等的图像。然后可以将待搜索图像与视频库中的每一个块管道进行比较。

视频处理设备可以维护视频库。视频库也可以设置在远程服务器上。视频处理设备与远程服务器通信，以获得视频库中的数据。来自监控摄像头的视频数据可以存储在视频库中。同时，各段视频中的块管道也可以存储在视频库中。可以从视频库中提取至少部分块管道。

可以分别提取待搜索图像的特征和块管道所对应的前景块的特征，并将二者相比较。可以理解的是，每个块管道对应着一个前景块，而这一个前景块可能出现在多帧原始图像中。因此，在提取该前景块的特征时，可以分别提取其在多帧原始图像中的特征，并对其在多帧原始图像中的特征求平均。将平均结果作为该前景块的特征。特征可以是颜色特征(例如RGB/HSV颜色直方图)、纹理特征(例如局部二进制模式直方图)、梯度特征(方向梯度直方图)等等，不再赘述。

比较的时候可以是整体比较也可以是按滑窗算法(sliding window)遍历所有可能区域来比较。对于大视频数据，可以使用哈希算法，例如局部敏感哈希(local sensitivehashing)算法来比较特征，以加快搜索速度。根据比较结果可以获知待搜索图像与块管道中的每一个所对应的前景块之间的相似度。

接下来，可以按照相似度选择期望前景块，例如可以选择与待搜索图像之间的相似度最大的几个前景块作为期望前景块，如下所述。

可以理解的是，期望前景块所对应的原始图像可能是一帧或多帧，可以选择其中的任何一帧输出给用户，这种情况下，输出的是静态图像。也可以将期望前景块所对应的多帧原始图像输出给用户，这种情况下，输出的是动态视频，也就是输出期望前景块所对应的原始视频的至少一部分。

可选地，确定期望前景块可以包括：选择与所述待搜索图像之间的相似度大于相似度阈值的前景块作为所述期望前景块。

可以预设一个相似度阈值，例如设定为90％。仅选择相似度大于90％的前景块作为期望前景块。例如，相似度大于90％的前景块有三个。则可以将这三个前景块所对应的原始图像输出。可以理解的是，对于每个前景块来说，可以输出一帧或多帧原始图像。这三个前景块所对应的原始图像可以在同一显示界面上同时显示或按顺序依次显示。

可选地，确定期望前景块可以包括：选择与待搜索图像之间的相似度最大的特定数目的前景块作为期望前景块。

例如，可以首先按照相似度对前景块进行排序，然后将相似度排名在最前面的几个(例如五个)前景块确定为期望前景块。这样，可以仅将最有可能包括用户希望搜索的物体的原始图像输出给用户，可以使用户快速获得有针对性的搜索结果。

可选地，进行视频检索可以包括：接收待搜索属性信息；对块管道中的每一个所对应的前景块进行分类，以获得块管道中的每一个所对应的前景块的属性信息；将待搜索属性信息与块管道中的每一个所对应的前景块的属性信息相匹配，以确定期望前景块，其中，期望前景块的属性信息与待搜索属性信息一致；以及输出期望前景块所对应的原始图像，以供用户查看。

属性信息可以包括但不限于：对象(可以为行人或车辆)、颜色(例如红色，白色，黑色等等)、行人的穿着(例如上衣衬衫，T恤，羽绒服，下身牛仔裤，休闲裤等)、车辆的车型、车辆的年份、车牌号等等。属性信息还可以包括时间、位置等信息。

可以预先定义视频检索所需的关键词。视频检索所需的关键词与属性信息相对应，即可以包括：对象、颜色、行人的穿着、车辆的车型、车辆的年份、车牌号等等。

待搜索属性信息可以由用户输入到视频处理设备中。例如，可以输入指示对象为车辆、颜色为黑色、车牌号为XXX的信息，作为待搜索属性信息。

为了获知各块管道所对应的前景块的属性信息，可以对所有块管道所对应的前景块进行分类操作。例如，可以使用行人检测分类器和车辆检测分类器对前景块中的行人和车辆进行检测，然后分情况考虑。如果检测到行人，则可以使用训练好的穿着分类器来判断行人的穿着。如果检测到车辆，则可以进一步判断车辆属性(例如车型，颜色，车牌号等)。

对于分类操作中所使用到的分类器，可以利用标注好的训练集来进行训练。例如，对于车辆车型分类，可以准备所有可能车型的正样本图片或视频。然后可以通过传统特征(尺度不变特征变换)算法或者神经网络(卷积神经网络)算法对这些图片或视频进行训练，以获得车辆车型分类器。对于视频来说，可以使用循环神经网络来优化训练结果。

将待搜索属性信息与块管道中的每一个所对应的前景块的属性信息相匹配，判断待搜索属性信息与每一个块管道所对应的前景块的属性信息是否一致。属性信息与待搜索属性信息一致的前景块即为期望前景块。

随后，输出期望前景块所对应的原始图像。与上述类似地，期望前景块所对应的原始图像可能是一帧或多帧，可以选择其中的任何一帧输出给用户，这种情况下，输出的是静态图像。也可以将期望前景块所对应的多帧原始图像输出给用户，这种情况下，输出的是动态视频，也就是输出期望前景块所对应的原始视频的至少一部分。

根据本发明另一方面，还提供了一种视频处理设备。图4示出了根据本发明一个实施例的视频处理设备400的示意性框图。如图4所示，该视频处理设备400包括获取装置410、前景提取装置420、分块装置430、关联装置440和视频分析装置450。

获取装置410用于获取待处理视频。前景提取装置420用于对于待处理视频中的每帧原始图像，进行前景提取，以获得前景图像。分块装置430用于对于待处理视频中的每帧原始图像，对前景图像进行分块，以获得前景块。关联装置440用于对待处理视频中的同一前景块在时空域上进行关联，以获得块管道。视频分析装置450用于基于块管道进行视频分析。

获取装置410、前景提取装置420、分块装置430、关联装置440和视频分析装置450可以用各种可行的软件、硬件、固件或它们的组合来实现。每个装置可以由各种具有数据处理能力和/或指令执行能力的处理单元实现，例如中央处理单元(CPU)、图形处理单元(GPU)等。各个装置之间的通信可以是有线通信，也可以是无线通信。

可选地，视频分析装置可以包括视频浓缩模块(未示出)，用于基于块管道进行视频浓缩。

可选地，视频浓缩模块可以包括切割单元、估计单元和叠加单元。切割单元用于如果块管道中的任何一个的时间长度大于时间阈值，则切割该时间长度大于时间阈值的块管道以形成时间长度小于或等于所述时间阈值的多个块管道。估计单元用于根据块管道中的所有块管道的总时间长度以及时间阈值，估计块管道的平均重叠长度。叠加单元用于将块管道中的所有块管道依次叠加在背景图像上，以获得经浓缩的视频，其中，在每次叠加块管道时，使得所叠加的块管道与前一块管道之间以平均重叠长度发生重叠。

可选地，视频浓缩模块可以进一步包括排列单元。排列单元用于将块管道中的所有块管道按照时间长度降序排列，其中，如果两个块管道的时间长度相同，则将先发生的块管道放在后发生的块管道前面。叠加单元可以包括叠加子单元，用于将块管道中的所有块管道按照排列好的顺序叠加在背景图像上。

可选地，视频分析装置可以包括视频检索模块(未示出)，用于基于块管道进行视频检索。

可选地，视频检索模块可以包括第一接收单元、第一提取单元、第二提取单元、比较单元、前景块确定单元和第一输出单元。第一接收单元用于接收待搜索图像。第一提取单元用于提取待搜索图像的特征。第二提取单元用于提取块管道中的每一个所对应的前景块的特征。比较单元用于将待搜索图像的特征与块管道中的每一个所对应的前景块的特征相比较，以确定待搜索图像与块管道中的每一个所对应的前景块之间的相似度。前景块确定单元用于基于相似度确定期望前景块。第一输出单元用于输出期望前景块所对应的原始图像，以供用户查看。

可选地，前景块确定单元可以包括第一选择子单元，用于选择与待搜索图像之间的相似度大于相似度阈值的前景块作为期望前景块。

可选地，前景块确定单元可以包括第二选择子单元，选择与待搜索图像之间的相似度最大的特定数目的前景块作为期望前景块。

可选地，视频检索模块可以包括第二接收单元、分类单元、匹配单元和第二输出单元。第二接收单元用于接收待搜索属性信息。分类单元用于对块管道中的每一个所对应的前景块进行分类，以获得块管道中的每一个所对应的前景块的属性信息。匹配单元用于将待搜索属性信息与块管道中的每一个所对应的前景块的属性信息相匹配，以确定期望前景块，其中，期望前景块的属性信息与待搜索属性信息一致。第二输出单元用于输出期望前景块所对应的原始图像，以供用户查看。

本领域普通技术人员通过阅读上文关于视频处理方法的详细描述，能够理解上述视频处理设备的结构、实现方式以及优点，因此这里不再赘述。

本发明提供的视频处理方法和设备可以有效地完成在智能监控中，特别是在数据量很大的情况下的数据分析及处理。本发明提供的视频处理方法和设备具有广泛的通用性，可以有效地应用到各种智能监控场景和领域，可以有效地节约人力资源，并且可以实时准确地在监控中进行快速的视频内容浏览以及检索。

在此提供的方法和设备不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者装置的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的视频处理设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种视频处理方法，包括：

获取待处理视频；

对于所述待处理视频中的每帧原始图像，

进行前景提取，以获得前景图像；

对所述前景图像进行分块，以获得前景块；

对所述待处理视频中的同一前景块在时空域上进行关联，以获得块管道；以及

基于所述块管道进行视频分析，其中，所述进行视频分析包括：基于所述块管道进行视频浓缩；

其中，所述进行视频浓缩包括：

如果所述块管道中的任何一个的时间长度大于时间阈值，则切割该时间长度大于时间阈值的块管道以形成时间长度小于或等于所述时间阈值的多个块管道；

根据所述块管道中的所有块管道的总时间长度以及所述时间阈值，估计块管道的平均重叠长度；以及

将所述块管道中的所有块管道依次叠加在背景图像上，以获得经浓缩的视频，其中，在每次叠加块管道时，使得所叠加的块管道与前一块管道之间以所述平均重叠长度发生重叠。

2.如权利要求1所述的视频处理方法，其中，

在所述将所述块管道中的所有块管道依次叠加在背景图像上之前，所述进行视频浓缩进一步包括：

将所述块管道中的所有块管道按照时间长度降序排列，其中，如果两个块管道的时间长度相同，则将先发生的块管道放在后发生的块管道前面；

所述将所述块管道中的所有块管道依次叠加在背景图像上包括：

将所述块管道中的所有块管道按照排列好的顺序叠加在所述背景图像上。

3.如权利要求1所述的视频处理方法，其中，所述进行视频分析还包括：基于所述块管道进行视频检索。

4.如权利要求3所述的视频处理方法，其中，所述进行视频检索包括：

接收待搜索图像；

提取待搜索图像的特征；

提取所述块管道中的每一个所对应的前景块的特征；

将所述待搜索图像的特征与所述块管道中的每一个所对应的前景块的特征相比较，以确定所述待搜索图像与所述块管道中的每一个所对应的前景块之间的相似度；

基于相似度确定期望前景块；以及

输出所述期望前景块所对应的原始图像，以供用户查看。

5.如权利要求4所述的视频处理方法，其中，所述确定期望前景块包括：选择与所述待搜索图像之间的相似度大于相似度阈值的前景块作为所述期望前景块。

6.如权利要求4所述的视频处理方法，其中，所述确定期望前景块包括：选择与所述待搜索图像之间的相似度最大的特定数目的前景块作为所述期望前景块。

7.如权利要求3所述的视频处理方法，其中，所述进行视频检索包括：

接收待搜索属性信息；

对所述块管道中的每一个所对应的前景块进行分类，以获得所述块管道中的每一个所对应的前景块的属性信息；

将所述待搜索属性信息与所述块管道中的每一个所对应的前景块的属性信息相匹配，以确定期望前景块，其中，所述期望前景块的属性信息与所述待搜索属性信息一致；以及

输出所述期望前景块所对应的原始图像，以供用户查看。

8.一种视频处理设备，包括：

获取装置，用于获取待处理视频；

前景提取装置，用于对于所述待处理视频中的每帧原始图像，进行前景提取，以获得前景图像；

分块装置，用于对于所述待处理视频中的每帧原始图像，对所述前景图像进行分块，以获得前景块；

关联装置，用于对所述待处理视频中的同一前景块在时空域上进行关联，以获得块管道；以及

视频分析装置，用于基于所述块管道进行视频分析，其中，所述视频分析装置包括视频浓缩模块，用于基于所述块管道进行视频浓缩；

其中，所述视频浓缩模块包括：

切割单元，用于如果所述块管道中的任何一个的时间长度大于时间阈值，则切割该时间长度大于时间阈值的块管道以形成时间长度小于或等于所述时间阈值的多个块管道；

估计单元，用于根据所述块管道中的所有块管道的总时间长度以及所述时间阈值，估计块管道的平均重叠长度；以及

叠加单元，用于将所述块管道中的所有块管道依次叠加在背景图像上，以获得经浓缩的视频，其中，在每次叠加块管道时，使得所叠加的块管道与前一块管道之间以所述平均重叠长度发生重叠。

9.如权利要求8所述的视频处理设备，其中，

所述视频浓缩模块进一步包括排列单元，用于将所述块管道中的所有块管道按照时间长度降序排列，其中，如果两个块管道的时间长度相同，则将先发生的块管道放在后发生的块管道前面；

所述叠加单元包括叠加子单元，用于将所述块管道中的所有块管道按照排列好的顺序叠加在所述背景图像上。

10.如权利要求8所述的视频处理设备，其中，所述视频分析装置还包括视频检索模块，用于基于所述块管道进行视频检索。

11.如权利要求10所述的视频处理设备，其中，所述视频检索模块包括：

第一接收单元，用于接收待搜索图像；

第一提取单元，用于提取待搜索图像的特征；

第二提取单元，用于提取所述块管道中的每一个所对应的前景块的特征；

比较单元，用于将所述待搜索图像的特征与所述块管道中的每一个所对应的前景块的特征相比较，以确定所述待搜索图像与所述块管道中的每一个所对应的前景块之间的相似度；

前景块确定单元，用于基于相似度确定期望前景块；以及

第一输出单元，用于输出所述期望前景块所对应的原始图像，以供用户查看。

12.如权利要求11所述的视频处理设备，其中，所述前景块确定单元包括第一选择子单元，用于选择与所述待搜索图像之间的相似度大于相似度阈值的前景块作为所述期望前景块。

13.如权利要求11所述的视频处理设备，其中，所述前景块确定单元包括第二选择子单元，用于选择与所述待搜索图像之间的相似度最大的特定数目的前景块作为所述期望前景块。

14.如权利要求10所述的视频处理设备，其中，所述视频检索模块包括：

第二接收单元，用于接收待搜索属性信息；

分类单元，用于对所述块管道中的每一个所对应的前景块进行分类，以获得所述块管道中的每一个所对应的前景块的属性信息；

匹配单元，用于将所述待搜索属性信息与所述块管道中的每一个所对应的前景块的属性信息相匹配，以确定期望前景块，其中，所述期望前景块的属性信息与所述待搜索属性信息一致；以及

第二输出单元，用于输出所述期望前景块所对应的原始图像，以供用户查看。