CN104244113B

CN104244113B - 一种基于深度学习技术的视频摘要生成方法

Info

Publication number: CN104244113B
Application number: CN201410525704.0A
Authority: CN
Inventors: 袁飞; 唐矗
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Beijing Casd Technology Co ltd
Priority date: 2014-10-08
Filing date: 2014-10-08
Publication date: 2017-09-22
Anticipated expiration: 2034-10-08
Also published as: CN104244113A

Abstract

一种基于深度学习技术的视频摘要生成方法，包括：对视频流逐帧进行背景建模，获取运动前景作为候选运动目标；使用多目标跟踪算法对每一帧的候选运动目标跟踪，更新形成运动轨迹的候选目标；使用卷积神经网络训练目标分类器，对候选目标进行确认，在确认真实运动目标后，使用分类器对目标类别进行判定；将所有真实运动目标和相关信息贴合在少量图像上，形成视频快照显示给用户。本发明利用深度学习技术对真实目标和噪声进行准确区分；且利用准确的多目标追踪技术来避免逐帧进行目标确认，大幅减少了计算量，有效降低了弱小目标的漏检率及噪声的虚警率，提升了视频处理速度，能够运用于各种复杂的场景。

Description

一种基于深度学习技术的视频摘要生成方法

技术领域

本发明涉及图像处理技术领域，更具体地，涉及一种基于深度学习技术的视频摘要生成方法。

背景技术

现代社会中，视频监控系统在各行各业中都扮演着重要的角色，在维护社会治安，加强社会管理以及安全保障方面发挥着重要的作用；但是伴随着摄像头数目的飞速增长，海量的监控视频数据的存储以及了解这些视频中记录的事件会耗费大量的人力、物力。根据ReportLinker公司统计，在2011年，全世界拥有超过1.65亿个监控摄像机，产生1.4万亿个小时的监控数据，假如有20％的重要监控视频数据需要人工观看，则需要雇佣超过1亿的劳动力(每天工作8小时，每年工作300天)。因此，将大量的视频进行浓缩，帮助用户快速了解视频中发生的事件，迅速锁定检索对象，能够有效地提高海量监控视频的利用效率。

在图像处理领域，为了提高视频的浏览效率，可采用视频摘要技术，将视频中用户感兴趣的内容提取出来，然后将它们以紧凑的方式重新安排，以视频快照的形式将视频的内容展示出来。为了能够自动的提取视频中用户感兴趣的内容，最简单的方法是提取原始视频中的关键帧，来构成视频摘要(例如参考文献：查德威克凯姆等，“一种基于目标的视频摘要整体方案”，《第八届计算机协会多媒体国际会议汇刊》，2000年，第303-311页(Kim，C.，Hwang，J.N.：An integrated scheme for object-based video abstraction.In：Proceedings of the eighth ACM international conference on Multimedia.(2000)303-311))，但是关键帧无法完整的描述整段视频，会造成视频中重要信息的丢失，而且由于视频内容种类繁多，如何选择合适的关键帧是一个难题。另一种方法是先对视频内容进行分析，提取原始视频中运动目标的相关信息，然后将提取出的运动信息紧凑地安排，生成视频摘要(例如参考文献：雅艾尔普瑞奇等，“非时序视频摘要与索引”，《IEEE模式分析与机器智能汇刊》，2008年，第1971-1984页(Pritch，Y.，Rav-Acha，A.，Peleg，S.：Nonchronological video synopsis and indexing.IEEE Trans.PatternAnal.Mach.Intell.30(2008)1971-1984))，这种方法能够较好的保留视频的动态内容。对于这种方法来说，问题的关键在于如何准确地提取用户感兴趣的所有事件。

对于监控视频来说，监控视频的拍摄场景非常复杂：有的场景车辆多，运动速度快，如高速公路；有的场景中，运动目标在画面上所占像素面积很小；有的场景中，树木、旗子等不感兴趣的物体由于风吹而同样产生运动等等；场景的复杂性为运动目标的准确检测带来很大的挑战。目前的视频摘要技术并不能很好地解决复杂场景中运动目标的检测问题，常常使得运动目标的漏检率非常高，同时受噪声干扰较大，无法准确提取视频中的重要事件，从而致使生成的视频摘要漏掉原始视频中的重要信息。

发明内容

有鉴于此，本发明的目的是提出一种基于深度学习技术的视频摘要生成方法，以方便用户对长时间的监控视频进行快速浏览，降低复杂场景中运动目标的漏检率以及错检率。

为了实现上述目的，本发明提供了一种基于深度学习技术的视频摘要生成方法，包括以下步骤：

步骤1，对输入的原始视频的图像序列进行背景建模，提取运动目标对应的前景区域；

步骤2，将获得的所述前景区域作为运动候选目标，使用多目标跟踪技术对所述运动候选目标进行跟踪，计算每一帧中所述运动候选目标的运动轨迹；

步骤3，对确定所述运动轨迹为活跃轨迹的运动候选目标使用基于深度学习技术的目标分类器进行进一步确认，判定所述运动候选目标是否是真实的目标，以及确认目标后，再使用分类器判断所述运动候选目标的类别；

步骤4，将多个检测到的所述运动目标贴合在同一幅图像中，生成视频快照，以所述视频快照展示视频中检测到的所述运动目标。

其中，在步骤1中对输入的原始视频的图像序列进行背景建模的步骤之前还包括将输入的所述原始视频的图像序列缩放至相同大小的步骤。

其中，在步骤1所述提取运动目标对应的前景区域的步骤中还包括对获得的所述运动前景进行后处理的步骤，具体包括：

步骤11，用形态学结构元素，对所述前景区域进行形态学开运算和形态学闭运算，获得轮廓光滑的前景区域，并且消除面积较小的噪声块；

步骤12，对所述前景区域进行面积计算，若所述前景区域像素点数目小于T₁＝5时，则滤除所述前景区域，否则，保留所述前景区域，确定所述前景区域是候选目标。

其中，在步骤2中所述的多目标跟踪技术是基于匈牙利算法构建的，具体包括：

步骤21，计算当前帧的所述运动候选目标的颜色直方图特征，以及所述颜色直方图特征与上一帧中运动候选目标的相似性；

步骤22，利用卡尔曼滤波预测上一帧中的所述运动候选目标在当前帧的位置信息，计算所述运动候选目标的预测位置与当前帧所述运动候选目标位置之间的欧氏距离；

步骤23，根据上述计算结果，使用匈牙利算法，对当前帧中的所述运动候选目标与上一帧中所述运动候选目标的轨迹进行匹配，获得匹配结果，并根据所述匹配结果更新所述运动候选目标的轨迹。

其中，在步骤3中所述的目标分类器是预先使用深度学习技术中的卷积神经网络进行离线训练得到的，用于判定所述运动候选目标是否是真实目标，以及所述运动候选目标的类型。

其中，对所述的目标分类器进行离线训练的步骤包括采用样品集来离线训练所述目标分类器，以及训练所述目标分类器使用的样本集包括监控视频中出现的五类运动目标或物体对应的图像和除去这五类外的图像背景区域：①行人；②非机动车；③轿车等小型车；④卡车等大型车；⑤树木、旗帜等非感兴趣目标但是会运动物体的局部；⑥监控场景中的除了上述五类运动物体外的图像区域；通过上述训练得到一个六分类的目标分类器，用于确认所述运动候选目标是否是真实目标。

其中，将上述样本中①、②类样本以及③、④样本分别组合成两个大的类别：人、机动车，使用这两类样本训练一个人/机动车的二分类分类器，用于在确认所述运动候选目标为感兴趣目标之后，对所述运动候选目标的类别进行判定。

其中，步骤3具体包括以下步骤：

步骤31，对于没有形成轨迹的所述运动候选目标，使用所述六分类分类器进行分类，只有当所述运动候选目标被判定为上述第⑤或者第⑥类时才认为该候选目标是噪声，否则认为是真实目标；而对于形成轨迹的所述运动候选目标，挑选其轨迹中的三个位置对应的包含所述运动候选目标的图像，分别使用所述六分类分类器进行分类，判定所述运动候选目标是否是真实目标，如果在这三个位置，所述运动候选目标都被判定为第⑤或者第⑥类，才认为所述运动候选目标是噪声，删除该轨迹，否则认为所述运动候选目标为真实运动目标；

步骤32，对于判定为真实运动目标的情况，如果在所述运动候选目标确认时的三次分类中，对所述运动候选目标是人还是机动车的判定存在分歧，则对所述运动候选目标使用人/机动车的分类器对其进行类型判定。

其中，在步骤4中，在确认后的所述目标轨迹中，挑选面积最大的一个位置，使将所述位置对应的图像贴合在一幅快照上，多个所述运动候选目标贴合组成一张快照，使用所述快照展示视频中出现的运动目标。

其中，在步骤4中，生成的所述快照中所有所述运动候选目标没有重叠，并且所述运动候选目标在所述快照上出现的先后顺序整体上是按照所述运动候选目标出现的真实时间排列。

基于上述技术方案可知，本发明针对复杂场景下的监控视频，通过新颖的视频内容分析技术，提取原始视频中的候选运动目标，并通过多目标跟踪，对候选目标进行初步区分，对于未形成轨迹和形成轨迹的候选运动目标，通过深度学习方法进行确认和分类，并以图像的形式紧凑地显示给用户，用户通过观看记录每个运动目标事件的图片便可达到观看原始视频的目的，大大地缩短了用户观看视频所耗费的时间。本发明的方法充分考虑到场景的复杂性，采用的技术方案能够保证计算结果的可靠性，将运动目标事件的漏检率以及噪声的干扰控制在极低的水平，从而使得本发明可以广泛运用于许多部门的实战中，例如公安侦查等。

附图说明

图1是本发明的基于深度学习技术的视频摘要生成方法的流程图；

图2是本发明的基于深度学习技术的视频摘要生成方法中多目标跟踪方法的流程图；

图3是本发明的基于深度学习技术的视频摘要生成方法中候选目标确认的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明提出了一种基于深度学习技术的视频摘要生成方法，该方法包括以下步骤：

首先，对原始视频的图像序列进行背景建模，获得运动前景块，并对其进行前景后处理等；其次，把提取出来的运动区域当做候选运动目标，利用基于匈牙利算法的多目标跟踪技术对这些候选运动目标进行跟踪，将候选目标分为形成轨迹和未形成轨迹两类；再次，使用卷积神经网络分类器对于候选运动目标进行进一步的确认和分类；最后，将多个确认的运动目标贴合在同一幅图像上，本发明将贴合后的图像称为“视频快照”。值得指出的是，本发明方法先把提取的运动区域当做潜在的运动目标进行跟踪，将候选运动目标初步区分，并使用深度学习中的卷积神经网络(CNN)对候选目标进行进一步的确认与类型判定，从而有效地降低了把噪声误判为运动目标的概率，并且保证了运动目标的检测率，并且对于形成轨迹的候选运动目标只进行三次分类判定，减少了计算量。可进行视频摘要处理的原始视频包括但不限于：视频监控系统采集的实时视频流、视频监控系统储存的录像文件、常规的多媒体视频文件、电视节目、电影等。

为了更好地理解本发明的技术方案，以下结合附图对本发明的实施方式作进一步描述。

本发明的基于深度学习技术的视频摘要生成方法的框架图如图1所示，本发明提出了一种基于深度学习技术的视频摘要生成方法，可以用于复杂场景进行可靠工作，其具体实施步骤如下：

步骤S101，采集待生成视频摘要的视频数据；

步骤S102，存储所采集的原始视频，形成原始视频数据库；原始视频可以是监控摄像头实时采集的视频，也可以是监控录像的回放视频；

步骤S103，对不同分辨率的原始视频，将视频的每一帧都缩放至相同大小，进行背景建模，提取运动的前景区域，并进行后处理，作为候选运动目标；

将不同分辨率的原始视频帧进行统一缩放，而不是直接对高分辨率的原始图像进行处理，能够有效地提高背景建模提取运动区域的运算速度。在本发明的实施例中，背景建模可以采用多种相关算法，本实施例不一一列举。背景建模的目的，是为了将视频帧中的背景以及运动目标区分开。场景中的背景是指视频中较长时间保持不变或者有微小变化的区域，相对应的，场景中的前景是指有明显变化的区域。例如在一段监控视频中，在场景中行驶的汽车和走路的行人，只在短时间内存在在视频场景中，所以被认为是运动前景，而马路、红绿灯和路两旁的树木，长时间存在在视频场景中，可以被当做运动背景。通过对原始视频进行背景建模，再使用当前帧与背景模型进行匹配，区分运动前景与背景。

但是，对于复杂监控场景下视频的运动前景提取往往存在一些噪声点，例如树木等属于背景的部分，由于风吹扰动，而被误判为前景，为了有效地减少噪声点，本发明的优选实施例中对同一段视频使用两个背景模型，两个背景模型相差300帧分别更新，但是在提取运动前景时，使用当前帧分别与这两个背景模型进行对比，得到两幅前景二值图，分别指示当前帧上的运动区域，对这两幅前景二值图进行“与”操作，得到的二值图作为当前帧对应的前景二值图；此外，对所获得的运动前景进行前景后处理，前景后处理采用形态学计算，具体包括：

首先，使用形态学结构元素，对前景目标进行形态学开运算和形态学闭运算，可获得轮廓光滑的前景，并消除面积较小的噪声点，缩小面积较大的噪声点；

然后，对前景目标进行面积计算，若前景目标的面积中像素点个数小于阈值T₁＝5时，则认为该前景目标属于噪声，应滤除，反之，则保留该前景目标。通过以上方法，来消除运动前景中的噪声干扰，并且可使前景的边缘变得平滑。

步骤S104，把步骤S103中每一帧提取的运动前景当做候选的运动目标，利用基于匈牙利算法多目标跟踪技术对这些候选运动目标进行跟踪。其中，活跃轨迹表示正在跟踪的、在实时处理结果中显示的轨迹；历史轨迹，表示当前没有被跟踪，但是可能转变成活跃轨迹的轨迹；死亡轨迹，表示彻底结束、不再被跟踪的轨迹。

本方法采用基于匈牙利算法的多目标跟踪方式来获取运动目标的运动轨迹，其中匈牙利算法用来计算多个运动目标的最优对应问题。其中，运动目标相似度的描述是基于运动目标的颜色信息和位置信息。颜色信息采用颜色直方图来量化，颜色直方图表示图像中颜色分布的一种统计值，表示不同色彩在图像中所占的比例，计算简单，而且具有尺度、平移以及旋转不变性。位置信息结合卡尔曼滤波器来计算，卡尔曼滤波是在最小均方误差准则下的线性系统最优估计方法，它的基本思想是使得估计误差的方差为最小，并且估计是无偏的，能够提升目标跟踪效果。

如图2所示，本发明中基于匈牙利算法的多目标跟踪方式来获取运动目标的运动轨迹具体可分为以下几个步骤：

步骤S1041，计算步骤S103中所有候选运动目标的8×8×8颜色直方图特征，然后计算当前帧中获得的运动目标的颜色直方图特征与上一帧运动目标的颜色直方图特征的相似性。优选地，本发明采用RGB颜色空间计算每一个运动目标的颜色直方图：先对颜色空间RGB中的三个颜色分量进行量化，将每个颜色空间划分为8个子空间，每个子空间对应直方图中的一维(bin)，统计落在直方图每一维对应的子空间内的像素数目，从而得到颜色直方图，然后计算上一帧活跃轨迹对应的运动目标与当前帧运动目标的颜色直方图特征之间的相似度。优选地，本发明采用Hellinger距离来度量两个直方图分布的相似度：

其中，h₁(q)和h₂(q)代表两个颜色直方图向量，N为8×8×8，

若两个目标的颜色直方图越相似，即颜色直方图向量之间的Hellinger距离越小，则两个目标匹配的可能性越高，其概率分布符合高斯分布。例如，公路的监控视频画面中，左侧有一辆白色小轿车W，右侧有一辆黑色小轿车B，本方法需要对这两个运动目标进行跟踪，从而获取它们的运动轨迹。若在上一帧中，对画面中检测到的两个运动物体W和B计算颜色直方图得到h₁和h₂，对当前帧画面中的两个运动物体W和B计算颜色直方图得到h₃和h₄，通过计算h₁和h₃，h₁和h₄，h₂和h₃，h₂和h₄之间的Hellinger距离，可发现h₁和h₃，h₂和h₄的Hellinger距离远远小于h₁和h₄，h₂和h₃之间的Hellinger距离，那么能够得到h₁和h₃是W在连续两帧所对应的颜色直方图，h₂和h₄是B在连续两帧所对应的颜色直方图，该信息可帮助连续两帧出现的目标进行匹配。

步骤S1042，根据上一帧图像中运动目标的活跃轨迹信息，利用卡尔曼滤波器预测运动目标的位置。根据第t-1帧图像中的每条活跃轨迹信息，利用卡尔曼滤波器预测第t帧中运动目标出现的位置。步骤S103中得到第t帧的候选运动目标，而在S1042中该步骤中依次对运动目标在第t帧的预测位置与第t帧检测模块的目标检测结果进行欧式距离计算，欧氏距离越小，则预测位置与确切位置越接近，那么两个目标匹配的可能性越高，其概率分布符合高斯分布。例如，上文提到的监控画面中的左侧车辆W和右侧车辆B，若在第t-1帧中，对画面中的检测到的两个运动物体W和B利用卡尔曼滤波器进行位置预测，得到在第t帧中的预测位置l₁′和l₂′，步骤S104中在第t帧对两个运动物体W和B进行检测后，获取目标的实际位置l₁和l₂。因为在连续的两帧中，车辆的位置不会发生巨大变动，所以l₁′和l₁，l₂′和l₂的欧式距离将远远小于l₁′和l₂，l₁′和l₂的欧式距离，该信息可帮助连续两帧出现的目标进行匹配。

步骤S1043，采用匈牙利算法，利用颜色信息和位置信息来进行多目标的匹配，匈牙利算法是解决二分图最大匹配问题的经典算法。例如，若在第t-1帧中存在m个活跃轨迹，步骤S103在第t帧中获得了n个候选运动目标，并由Hellinger计算第t-1帧的活跃轨迹与第t帧的运动目标颜色直方图特征之间的相似度，并得到m×n的矩阵M₁；而计算第t-1帧的活跃轨迹在第t帧中的预测位置与第t帧运动目标的确切位置之间的欧式距离，可以得到m×n的矩阵M₂。将矩阵M₁和M₂对应位置的元素相乘，得到m×n的矩阵M，将该矩阵M作为匈牙利算法的输入值，匈牙利算法可给出第t-1帧中m个活跃轨迹与第t帧n个运动目标的匹配结果，匹配结果中若相似度小于阈值T₂＝0.5时，则认为不匹配，反之则匹配成功。

步骤S1044，根据上一步骤中目标的匹配结果，生成当前帧中运动目标的运动轨迹；同时预测目标在下一帧中的位置信息等。

若第t-1帧的活跃轨迹mi与第t帧的运动目标n_j匹配成功，则认为目标n_j在前t-1帧中的运动轨迹为mi，更新活跃轨迹mi。此时，对于目标n_j在第t帧的跟踪过程结束。

若第t帧的运动目标没有匹配到第t-1帧的活跃轨迹，说明该目标没有运动轨迹，为新目标；若第t-1帧的活跃轨迹没有匹配到第t帧的运动目标，说明目标已消失，则将该活跃轨迹与历史轨迹进行匹配，若能匹配上，则该活跃轨迹与历史轨迹整合为新的活跃轨迹，否则，该活跃轨迹转变为历史轨迹。

本发明在第t帧目标n_j更新活跃轨迹后，利用卡尔曼滤波器预测目标n_j在第t+1帧的位置，并保存目标n_j的类型、位置、面积、宽高比等信息，以在第t+1帧目标检测时使用。

步骤S105，利用目标分类器，对候选运动目标进行确认和分类。

在步骤S103、S104中，通过背景建模的方法对原始视频中的运动区域进行了提取和跟踪，但是由于噪声(如树木、旗帜等)能够直接干扰到背景建模对于运动区域的提取，因此在S103、S104中提取的候选运动目标中很容易混有大量的噪声，如果直接把这些候选目标当做真实的运动目标，用以生成视频快照，会导致快照数目过多，虚警过多，从而影响用户查找感兴趣目标的效率，因此，需要对这些候选运动目标进行进一步的筛选和判定，区分真实的运动目标和噪声。鉴于深度学习技术在越来越多图像识别领域的应用中表现出了优越的性能，本发明创造性的将深度学习技术使用在视频摘要方法中，充分的利用了深度学习技术在图像识别方面的卓绝性能。在本发明中，我们使用了基于深度学习技术中的卷积神经网络(CNN)作为目标分类器来区分真实运动目标以及噪声。

在步骤S104中，分别对步骤S103中每一帧提取得到的候选运动目标进行跟踪，对于未形成轨迹的候选目标，直接使用目标分类器对其进行判定，而对于形成轨迹的候选运动目标，在其轨迹变成死亡轨迹之后，使用目标分类器对其进行进一步的确认，判断该候选目标是否是真实运动目标，如果判定是真实目标，则对该目标进行类别判定。这样做，一方面可以利用CNN分类器的优越性能，对候选目标进行精确地判定，区分噪声和真实目标；另一方面，对于形成轨迹的目标只进行少量的分类操作，而不是逐帧进行分类，减少计算量；最后，对目标进行了分类，方便之后的快照生成与目标检索。

本发明优选实施例中，采用离线训练好的目标分类器，对步骤S104中获得的候选目标进行确认和分类。目标分类器的离线训练具体实施方法如下：

首先，收集训练样本。样本集可以根据各种具体场景需要进行分类，例如对于交通路况监控，可以分为：(1)行人；(2)非机动车；(3)轿车等小型车；(4)卡车等大型车；(5)树木、旗帜等非感兴趣目标但是会运动物体的局部；(6)监控场景中的除了上述五类运动物体外的图像区域；这些样本是根据具体场景需要从真实的监控视频中通过人工标注裁剪得到的。对于其他场景也可以有各种不同的分类。在本发明的优选实施例中，针对交通路况监控，训练了一个六分类分类器分别用来判定候选目标是否是真实目标，和一个人/机动车的二分类分类器对真实的目标进行类型判定。之所以在确认目标时将目标类别进行细致的划分，是因为这样充分考虑到了感兴趣目标类内的差异，可以更加详细准确的区分真实的感兴趣目标与噪声，例如，轿车与大卡车如果共同归类为机动车大类进行训练，由于两者在外观上存在差异性，会使得训练获得的分类器模型更容易将噪声判定为机动车大类，而如果拆分为两个小类，那么这两个类别与噪声的区分度会变大，从而能够更准确的区分感兴趣目标与噪声。

其次，卷积神经网络的构建。本发明使用深度学习技术中的卷积神经网络(CNN)来对目标图像进行分类。在本发明的优选实施例中，我们构建了一个包含三个卷积层，三个下采样层，三个非线性传播函数层，一个全连接层，一个回归层的神经网络结构，收集的样本经过缩放归一化之后，与其类别标签一起输入网络，以最大化的区分输入的不同类别样本为目标，使用随机梯度下降算法，对网络进行优化，学习得到网络结构中各层的参数。这一学习过程是离线进行的，为了能够对于大量样本进行快速学习训练，本发明提出了一种对于图像进行分割，并行计算图像卷积的方法：

以卷积核大小为n×n(n为奇数)为例：

1、将输入的训练样本图像分割为m×m的若干块，如果图像不能够分割为整数个小块，则在边缘处补0后分割；

2、对于每一小块图像，以该小块图像中心为中心取(m+n-1)×(m+n-1)大小的图像作为训练样本图像的子图像，将同一个样本图像的的子图像并行地进行卷积计算，这样得到的每个子图像卷积后特征图大小为m×m；

3、将同一幅子图像m×m特征图按照其在原图上的位置进行排列，很容易证明获得的与原图等大小的特征图即是该图像经过卷积计算得到的特征图；

使用这样的方法能够实现对于同一幅图像卷积计算的并行化，从而极大地提高了模型训练的速度，此外，为了使模型的训练更加精细，在本方法中，对于每一层网络的学习率参数进行动态设置，学习率参数会根据模型的收敛程度进行自动微调，从而使得模型应用在实际场景中的鲁棒性更高。

在学习得到所有最优的参数后，获得相应的模型。在对图像进行分类时，使用该模型，通过三个卷积层、下采样层以及非线性传播函数层计算该图像对应的特征图，特征图的计算方法如下：

1、将图像按照RGB三通道分解为三幅等大小图像，作为整个卷积网络的输入；

2、输入卷积层，通过训练得到的N个卷积核对输入图像进行卷积，获得N幅特征图；

3、对N幅特征图进行下采样，获得新的特征图；

4、对于采样后的特征图通过一个非线性传播函数层，对每个特征值进行放大；

5、把非线性传播函数层的输出作为下一个卷积层的输入，重复2-4的步骤，一共通过三次卷积层、下采样层和非线性传播函数层，把最后一个非线性传播函数层的输出作为输入图像的特征图；

把得到的特征图作为全连接层以及逻辑回归层的输入，将训练得到的特征图分别通过全连接层网络，全连接层的每个卷积核对所有的特征图进行卷积计算，并将卷积结果按照一定的顺序排成组成一个N维的特征向量组，该特征向量转置后通过逻辑回归层的N×M参数矩阵得到一个1×M的概率矩阵，该矩阵的M个元素分别表示该图像属于M个类别的概率，从而达到对输入图像进行分类的目的。

如图3所示，候选目标的确认以及分类具体可分为以下几个步骤：

步骤S1051，判定候选目标是否形成了轨迹；

步骤S1053、S1054，对于未形成轨迹的候选目标，使用六分类分类器进行判定，如果该候选目标类型属于第(5)或者第(6)类，则认为该候选目标确实为噪声；

步骤S1052，判定候选目标的轨迹是否是死亡轨迹，如果不是死亡轨迹，说明目标仍然在被跟踪，此时不进行目标确认，这样是为了对每一个轨迹只确认一次，提高运算速度；在本方法中，当某个历史轨迹，经过N帧的匹配运算，仍然无法与运动前景匹配上，则视为该历史轨迹终止，本算法中N＝50。

步骤S1055，一个候选目标在不同帧中存在于视频帧上的不同位置，根据其轨迹记录的位置信息，从相应的视频帧上获得该目标的对应图像，进行确认，在本发明的优选实施例中，为保证目标确认的准确性，从一个目标轨迹的起始、中间以及终止处各选择一幅包含候选目标的图像，共三幅进行确认。

步骤S1056、S1057和S1058，使用六分类分类器分别对三幅候选目标图像进行分类，如果三幅图像的类别都被判定为属于第(5)或者(6)类，则认为该候选目标是噪声，删除该目标的信息；否则，则认为该目标是真实目标；同时记录六分类分类器对于该目标的三次类型判定，如果这三次类型判定对于该目标的大类别(人/机动车)判断存在分歧，例如，一次判断为非机动车，另外两次判断为轿车等小型车，那么对于该目标使用人/机动车分类器进行类别判定。

步骤S1059，当确定一个真实目标的类别之后，记录该目标的类型、轨迹信息用以在之后生成视频快照。

步骤S106，把所有记录的运动目标用少量的快照展示。使用原始视频中若干帧的平均作为生成的快照背景图像，把记录的真实运动目标按照其在原始帧中出现的位置贴合在快照背景图像上；由于每一个运动目标除了类型信息之外，还记录该目标的轨迹信息，为了使用少量的快照清晰地展现该目标，从该目标轨迹上的各个位置中挑选目标面积最大的位置，提取该目标，并且按照其在该帧中出现的位置贴合在快照背景图像上；同时，为了只使用少量的快照展示所有的目标，并且每一个目标都能够在快照上清晰地展现，本方法提出了一种局部优化的快照生成算法：

1、在算法处理过程中即时记录检测到的目标，在队列中进行保存；

2、当队列长度大于一定阈值T时，进行一次快照生成：将队列中第一个目标O1进行贴合；

3、判断队列中剩余的目标是否与第O1重叠，找到第一个与O1不重叠的目标O2贴合在快照上；

4、以O2为起始，向后查找，直到找到第一个与O2无重叠的目标，贴合在快照上；

依次类推，直至队列遍历结束。

该方法生成的快照中所有目标没有重叠，并且目标在快照上的出现的先后顺序整体上是按照目标出现的真实时间排列，从而保证了目标在快照上的清晰展示，同时可以通过提高阈值T来灵活地提高目标在快照上密度，减少快照数目；对于每一个贴合在快照上的目标，其出现在视频中的时间都会标定在目标上，方便，用户快速的在原始视频中定位感兴趣的目标。

经过实际验证，本发明的优选实施例在配置Intel i7-3770 CPU的PC机上对高清的监控视频(1280×720以上)的处理速度可以达到视频正常播放速度的12-20倍，而目标的遗漏率小于2％，虚警率小于5％。

本发明关注视频摘要系统在复杂场景下的可靠性，创造性的使用了基于深度学习的目标分类技术，大幅减小了运动目标的漏检率，同时，降低噪声被误判为运动目标从而干扰视频摘要质量的概率；除此之外，在对运动目标的判定与检测过程中，使用了多目标追踪技术，从而避免了对于每一帧中的候选运动目标逐个进行分类判定，大幅减少了计算量，从而提升了视频摘要系统处理视频的速度。与传统的视频摘要方法相比，本发明能够准确、快速、完整地提取复杂场景中前景运动目标，以少量快照图片的形式清晰地展示出长段视频中的所有运动目标，在复杂场景下，能够生成可靠的视频摘要。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习技术的视频摘要生成方法，包括以下步骤：

步骤3，对确定所述运动轨迹为活跃轨迹的运动候选目标使用基于深度学习技术的目标分类器进行进一步确认，判定所述运动候选目标是否是真实的目标，以及确认目标后，再使用分类器判断所述运动候选目标的类别；其中，所述目标分类器是预先使用深度学习技术中的卷积神经网络进行离线训练得到的，所述目标分类器的离线训练包括如下步骤：采用样品集来离线训练所述目标分类器，以及训练所述目标分类器使用的样本集包括监控视频中出现的五类运动目标或物体对应的图像和除去这五类外的图像背景区域：①行人；②非机动车；③小型车；④大型车；⑤非感兴趣目标但是会运动物体的局部；⑥监控场景中的除了上述五类运动物体外的图像区域；通过上述训练得到一个六分类的目标分类器，用于确认所述运动候选目标是否是真实目标；将上述样本中①、②类样本以及③、④样本分别组合成两个大的类别：人、机动车，使用这两类样本训练一个人/机动车的二分类分类器，用于在确认所述运动候选目标为感兴趣目标之后，对所述运动候选目标的类别进行判定；

2.如权利要求1所述的基于深度学习技术的视频摘要生成方法，其中在步骤1中对输入的原始视频的图像序列进行背景建模的步骤之前还包括将输入的所述原始视频的图像序列缩放至相同大小的步骤。

3.如权利要求1所述的基于深度学习技术的视频摘要生成方法，其中在步骤1所述提取运动目标对应的前景区域的步骤中还包括对获得的运动目标对应的前景区域进行后处理的步骤，具体包括：

4.如权利要求1所述的基于深度学习技术的视频摘要生成方法，其中在步骤2中所述的多目标跟踪技术是基于匈牙利算法构建的，具体包括：

5.如权利要求1所述的基于深度学习技术的视频摘要生成方法，其中步骤3具体包括以下步骤：

6.如权利要求5所述的基于深度学习技术的视频摘要生成方法，其中步骤4所述的将多个检测到的运动目标贴合在同一幅图像中，生成视频快照，以所述视频快照展示视频中检测到的所述运动目标的步骤具体包括：在步骤3确认后的所述真实运动目标的轨迹中，挑选面积最大的一个位置，使将所述位置对应的图像贴合在一幅快照上，多个所述运动候选目标贴合组成一张快照，使用所述快照展示视频中出现的运动目标。

7.如权利要求6所述的基于深度学习技术的视频摘要生成方法，其中在步骤4中，生成的所述快照中所有所述运动候选目标没有重叠，并且所述运动候选目标在所述快照上出现的先后顺序整体上是按照所述运动候选目标出现的真实时间排列。