CN103886089B

CN103886089B - 基于学习的行车记录视频浓缩方法

Info

Publication number: CN103886089B
Application number: CN201410125948.XA
Authority: CN
Inventors: 吴怀正
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-03-31
Filing date: 2014-03-31
Publication date: 2017-12-15
Anticipated expiration: 2034-03-31
Also published as: CN103886089A

Abstract

本申请公开了一种基于学习的行车记录视频浓缩技术，包括以下步骤：在行车记录视频的感兴趣区域中，逐帧提取所有像素点的光流矢量，产生感兴趣区域的光流特征；将光流特征按帧输入到与每个事件对应的事件模型，对每帧计算其中发生每个事件的概率；将每帧标记为对该帧计算的发生概率最大的事件；如果行车记录视频的连续多帧被标记为同一事件，则截取行车记录视频的连续多帧，作为与该事件对应的浓缩视频。本发明有效地利用了视频中的运动信息，用以学习事件各个事件的模型。这些模型可以有效的解决行车记录视频的浓缩中的问题，并为行车安全提供辅助信息。本系统可检测行车记录视频中的具有较强区分性的特定事件，具有实时性好、识别精度高的特点。

Description

基于学习的行车记录视频浓缩方法

技术领域

本发明属于模式识别和智能监控领域，尤其涉及一种基于学习的行车记录视频浓缩技术。

背景技术

随着人们行车安全意识的提高，行车记录仪的使用在我们的生活中已经越来越普遍，由此便产生了大量的行车记录视频。行车记录仪所记录的视频中，大部分的视频属于正常行驶情况下所拍摄的，这种情况下拍摄的视频对我们的帮助不大，因此人工在大量冗长的行车记录视频中查询感兴趣事件成为了一种耗时劳心的工作。随着计算机视觉及模式识别技术的日益成熟，人们更期待能使用计算机视觉、模式识别技术及计算机强大的数据处理能力来处理行车记录视频，从而找到能智能检测、搜索定位并得到感兴趣事件的浓缩视频的方法。

视频浓缩（也称视频摘要）是通过在时间轴上压缩原始视频，使用时间上远短于原始视频的视频片段表达视频概要的技术。快进可以看作最原始的一种视频浓缩方法，它是通过等间隔的选择一些视频帧并跳过一些帧，来达到视频浓缩的目的。但这种方式并不能很好的表达一个视频，因为它无法自适应的丢弃无用视频片段，并且这种方法极有可能丢失一些重要的细节。由于普通的监控视频都是由固定位置的摄像头拍摄的，因此这种监控视频的背景在短时间内变化很小。在视频监控领域先已有一些方法基于普通监控视频的这种特点，通过背景建模进一步检测视频中前景，从而达到视频浓缩的目的。

现有技术一：自适应抽帧的方法。

这种方法（参见参考文献【1】【2】）首先通过背景建模检测出视频中的活动前景，试图跳过低活动率和不感兴趣的帧，并保留下活动率比较高和用户更感兴趣的帧，或者保留一些视频片段来代表视频内容（参见参考文献【3】）。同时，这种方法不仅仅限于根据活动率来浓缩视频，也可以根据不同用户的不同关注点，如声音、摄像头的运动、物体的运动、颜色等进行视频浓缩。

现有技术二：基于关键帧的方法。

在参考文献【4】【5】中提出了使用关键帧来产生浓缩视频的方法。关键帧的选取可以是任意的，也可以是根据一些重要的标准。这里关键帧的提取技术是影响视频浓缩质量的关键。当提取的关键帧过少的时候，浓缩视频会丢失原始视频中很多重要的动态信息；当提取的关键帧过多时，又不能达到很好的视频浓缩效果。

现有技术三：基于前景目标的方法。

在参考文献【6】【7】【8】【9】中提出了一种基于前景目标的视频浓缩方法。与上述两种方法不同，这种方法浓缩视频时不仅利用了视频时间的冗余，而且利用了视频空间上的冗余，因此浓缩视频的一个视频帧中可能包含来自于不同时间段的，空间位置上不重叠的物体。这种方法通过背景建模的方法检测出视频中的前景，并记录他们的运动轨迹，然后在时间域上通过移动物体，将不同的物体融合到相同的视频片段中便可以达到视频浓缩的目的，这些物体的运动轨迹应尽量少的重叠，且浓缩视频片段尽可能的短。

虽然上述的这些方法可以处理普通的监控视频，且可以达到一个较好的浓缩效果，但这些方法并不适用于行车记录视频的浓缩。行车记录视频与普通监控视频最大的区别在于行车记录仪是随着车的运动而运动的，因此传统的通过背景建模提取前景目标并进行浓缩视频的方法已经完全不适用于行车记录视频。

在车辆行进的过程中，所拍摄的行车记录视频中所有物体都是运动的（除车上固定物体）因此不能通过简单的背景建模的方法区分前景与背景。同时上述传统视频浓缩的方法的目的是用较短的视频表达原始视频中所有的运动前景，并不关注于这种运动是以什么方式进行的，但在行车记录视频中，随时都会有车辆及行人的运动，而其中大部分时间车辆及行人的运动属于正常行驶下的情况，并不含有太多用户感兴趣的事件，因此，行车记录视频的浓缩的重点并不在前景物体及其运动轨迹的检测上，而是在于前方车辆及行人与本车所处的状态（以及相互关系）。

因此，我们不仅仅需要检测前方目标及其运动轨迹，而且更需要判断其处于哪种状态或运动方式。有时，即使在行车记录视频中没有前景目标情况下，我们也需要根据背景的移动方式（视野的变化）判断本车的状态是否代表我们所关心的事件。

由于车辆本身的运动复杂多样，同时车辆与车外物体之间相对运动的存在，使得行车记录视频中的物体的运动复杂多样，即使能够找到所感兴趣的前景目标，仅仅使用物体的运动轨迹已经很难表达物体的真正的运动，更不可能表达本车的运动方式，因此上述的方法已不足于区分哪些是用户感兴趣的事件。

发明内容

针对上述传统浓缩技术所存在的问题，本发明提出了一种基于学习的行车记录视频的浓缩方法。

针对行车记录视频中的不同事件，本发明提供了一种结合视频运动特征和时域信息、利用支持向量机（Support Vector Machine，SVM）对行车记录视频中特定事件进行检测、提取并浓缩的系统。同时本发明具有车牌识别、GPS定位等功能，当检测到不安全事件时，可以将有用信息发送到相关部门，用于保障本车和其他车辆的行车安全。

现有的视频浓缩技术只适用于普通的背景在短时间内不会变化的监控视频的浓缩，并不能用于行车记录视频的视频浓缩。由于摄像头随着车辆的移动，行车记录视频中的物体都是运动的，通过背景建模的方法无法找到真正的背景，因此不能找到我们感兴趣的目标的位置。

同时，行车记录视频关注的是本车及前方车辆所处的状态，因此我们不仅仅需要提取所有前景目标及其运动轨迹，更需要根据这些有限的信息，判断出车辆的运动状态，判断它是否属于我们所关心的事件，然后得到行车记录视频的浓缩视频。另一方面，我们在检测到不安全事件时，不仅可以提醒驾驶者，引导其安全行驶，而且可以利用车牌识别，GPS定位等技术提取有用信息。

本发明提出一种针对重点区域提取特征的方法。由于行车视频中一些区域并不含有用信息（如天空，树木等），且会干扰对事件的判断，因此我们提出了只针对部分区域提取特征的方法来减少这种干扰。我们通过人工划定区域的方式，选取感兴趣区域（如车辆前方道路可能包含车辆的地方）。

本发明还提出了两种通过提取视频特征并利用学习的方法得到事件模型的方法，并将学习得到的模型用以浓缩行车记录视频。本方法主要提取了视频中的全局光流特征与基于感兴趣点的光流特征，用于后续事件模型的学习与事件类别的判断。光流是对视频中物体的运动比较敏感的特征，它们的鲁棒性也比较好，因此可以用于行车记录视频的浓缩。模型学习首先使用了SVM为每一类事件学习了其对应的模型，因此当得到所有模型之后，待浓缩视频中的事件便可以看作一个基于SVM的多分类问题。然后对于基于感兴趣点的局部光流特征使用了词袋模型。

本发明同时有效的利用了车牌识别与GPS定位技术，为行车安全提供辅助信息。

根据本发明的实施例，提供了一种基于学习的行车记录视频浓缩方法，包括以下步骤：步骤10、在行车记录视频的感兴趣区域中，逐帧提取所有像素点的光流矢量，产生所述感兴趣区域的光流特征；步骤20、将所述光流特征按帧输入到与每个事件对应的事件模型，对每帧计算其中发生每个事件的概率；步骤30、将每帧标记为：对该帧计算的发生概率最大的事件；步骤40、如果所述行车记录视频的连续多帧被标记为同一事件，则截取所述行车记录视频的连续多帧，作为与该事件对应的浓缩视频。

本发明的有益效果主要在于以下几个方面：本发明有效地利用了视频中的运动信息，用以学习事件各个事件的模型。这些模型可以有效的解决行车记录视频的浓缩中的问题，并为行车安全提供辅助信息。本系统可检测行车记录视频中的具有较强区分性的特定事件，具有实时性好、识别精度高的特点。

附图说明

图1为说明根据本发明的实施例的光流特征量化方向的示意图；

图2为说明根据本发明的实施例的感兴趣点选取的示意图；

图3为说明根据本发明的实施例的邻域内光流特征提取的示意图；

图4为说明根据本发明的实施例的视频浓缩系统的功能框图；

图5为说明根据本发明的实施例的视频浓缩系统的多类事件学习的功能框图。

具体实施方式

下面，结合附图对技术方案的实施作进一步的详细描述。

本领域的技术人员能够理解，尽管以下的说明涉及到有关行车记录视频浓缩技术的很多细节，但这仅为用来说明本发明的原理的示例、而不意味着任何限制。本发明能够适用于不同于以下例举的技术细节之外的场合，只要它们不背离被发明的原理和精神即可。

图4为说明根据本发明的实施例的视频浓缩系统的功能框图，其中深色箭头表示训练过程，浅色箭头表示事件分类过程。图5为说明根据本发明的实施例的视频浓缩系统的多类事件学习的功能框图，其中深色箭头表示训练过程，浅色箭头表示事件分类过程。

下面，说明根据本发明的实施例的视频浓缩方法的实现原理。

1、感兴趣区域选取（划定）

首先，可提供播放待浓缩视频的界面，用户可以随时暂停，选取感兴趣区域。在选取时，用户暂停视频播放，并使用鼠标圈出感兴趣区域。选取时观察视频特点，选出事件可能发生的大致区域（一般选择前窗外路面上方位置）。这样可以有效去除视频中无用信息的干扰，如道路两边的建筑、树木、天空等。

另外，也可以根据事先确定的规则、或基于边缘识别等图像处理方法，由程序自动选择所述感兴趣区域。

2、特征提取

感兴趣区域选定以后，在选定的区域当中提取相关特征用于模型学习及事件分析分类。

根据本发明的实施例，可采用以下两种方法来提取感兴趣区域的图像特征，即：感兴趣区域内的所有像素点的光流特征提取；感兴趣区域内的感兴趣点邻域的光流特征提取。

尽管本说明书中列举了一些具体方法作为特征提取的示例，但本领域的技术人员能够理解，可择一或同时采用以下两种方法来提取图像特征，也可采用其它现有的或将来的任意适用方法来提取图像特征。

下面分别说明这两种方法。

2.1感兴趣区域内的所有像素点的光流特征提取

本系统所要区分的行车记录视频中的事件之间的最大区别在于车辆的运动方式，因此需要提取行车记录视频中的运动信息。光流特征就是一种简单实用的视频运动表达方式。由于它提取方法简单，可以实时的提取区分性较强的特征，用于表达视频中的目标（比如车辆）的不同运动方式。

首先，提取选定的感兴趣区域内的每个像素的光流特征，并将其量化到8个方向（8个角度范围）上（如图1所示）。例如，这8个方向所代表的角度范围分别是(-22.5°，22.5°]，(22.5°，67.5°]，(67.5°，112.5°]，(112.5°，157.5°]，(157.5°，202.5°]，(202.5°，247.5°]，(247.5°，292.5°]和(292.5°，3337.5°]。

然后，根据上述量化结果，计算光流（矢量）的水平方向分量大小、垂直方向分量大小、以及幅值，这样就可以得到4种8维的统计直方图特征，它们分别是：

1）统计量化到每个方向上的像素数的直方图。即视频帧的感兴趣区域中属于每个方向的像素点的个数的统计直方图。

2）统计量化到每个方向上的所有像素的光流的水平分量大小的累加直方图。

3）统计量化到每个方向上的所有像素的光流的垂直分量大小的累加直方图。

4）统计量化到每个方向上的所有像素的光流的幅度大小的累加直方图。

之后，将上述4个8维直方图级联，得到感兴趣区域内的光流特征直方图。

2.2感兴趣区域内的感兴趣点邻域的光流特征提取

在计算机视觉中，基于局部感兴趣点的光流特征的方法往往能取得比较好的效果，这是因为这些方法首先检测了视频中的稳定的、可辨识度较高的一些点，作为感兴趣点，并基于这些点提取特征，这些局部特征往往比全局特征具有更好的稳定性与可辨识性。

因此，本发明提出了一种基于感兴趣点的局部光流特征，用于行车记录视频浓缩，以提高全局光流特征的可靠性与稳定性。

对于行车记录视频，在所选取的感兴趣区域中，只有局部的运动信息才能真正反映一个事件（比如前方车辆并线时，只有前方车所在的像素的光流特征能表达并线的特征）的发生。而感兴趣区域中除此之外的背景区域的运动信息则不利于事件的判别。

因此，基于关键点的局部运动特征适合行车记录视频事件的判别。首先，需选取一些稳定的关键点，例如，可采用参考文献10中的SIFT特征关键点的选取方法，然后，在每个关键点的邻域内提取上述适合于行车记录视频的光流特征。

该方法的基本原理如下：首先，例如，通过SIFT特征【10】的做法，提取在视频帧的多个空间尺度上稳定的一些像素点；然后在这些像素点的邻域内提取光流特征，并去除光流特征较小的像素点，将光流特征较大的像素点作为感兴趣点，其直方图特征视为特征词汇；最后为每个事件建立词袋模型（bag-of-words）。

2.2.1感兴趣点选取

SIFT(Scale Invariant Feature Transform)特征是由英属哥伦比亚大学的David Lowe在1999年提出的用于目标识别的一种局部特征。该特征由于具有尺度不变性、旋转不变性被大量的应用。这里只采用了它尺度空间极值的选取方法，并将这些关键极值点看作本特征的感兴趣点。

首先，进行尺度空间极值点的选取。

为保证SIFT特征的尺度不变性，先对图片进行了尺度的变换，找到其中的极值。目的在于对于所有可能的尺度做一次搜索，找到那些在不同尺度条件下都较为显著的特征点。首先利用具有不同方差的高斯函数与图像的卷积获取不同空间尺度的图像。高斯函数对图像具有模糊作用，方差越大模糊作用越明显。因此大的方差的高斯函数与图像卷积保留了图像的大轮廓特征，而小的方差的高斯函数与图像的卷积保留了图像的细节特征。并将获取的相邻的不同尺度的卷积结果相减以获取多个高斯差分函数。这多个高斯差分函数组成了一个高斯差分金字塔。

然后利用下采样的方法，建立多个不同尺寸的高斯差分金字塔，如图2所示。

在这些高斯差分图片组中便可以确定尺度空间的极值，在每一个高斯差分图片组中，每一个像素除了在本图片中有8个相邻像素，还有上下两层图片的另外18个相邻像素点，共26个相邻像素（边界像素除外）。如果某个像素（的灰度值）比其26个像素点都要大或都要小，那么就认为该像素点为尺度空间图片中的局部极值。

这样，在感兴趣区域内选取了符合上述要求的多个局部极值点（多个像素点）。

接下来，可选地，还可对已选取的多个极值点进行筛选，这是因为，利用上述高斯差分算子得到的局部极值点之中可能有一部分由于对比度较低对噪声比较敏感，还有一部分不稳定地集中在图像的边缘。Brown和Lowe于2002年提出了去除这两类点的方法，来提高SIFT方法选取的极值点的稳定性。具体筛选方法如下。

首先，对上述选取的每个局部极值点，使用空间尺度函数泰勒展开并求其极值，若该局部极值点的极值大于预定阈值，才保留该局部极值点，这样可以保留高对比度的局部极值点。然后，利用海森矩阵计算局部极值点的主曲率，保留满足阈值条件的局部极值点，从而可以去除位于图像边缘的局部极值点。通过以上两步，便可以使得保留下来的局部极值点（感兴趣点）更稳定、可靠。

2.2.2邻域内光流特征提取

接下来，针对筛选之后的每个局部极值点（感兴趣点），如图3所示，在以其为圆心、半径为r的邻域内，提取每个像素的光流特征值（矢量），并获取其光流直方图（如上节所述），并将这些直方图级联成一个直方图。

这样，对于筛选之后的每个局部极值点（关键像素点），各自得到1个光流特征直方图（经过4个8维直方图级联）。

3、事件模型学习

根据本发明的实施例，所要学习的事件主要包括以下几种：出库、人从车前经过、转弯、加减速、并线、等灯、停车入库、过门禁收费站、倒车等。针对每一个事件，都需要学习一个事件模型，以便于以后的特定事件的分析提取。

在针对某个事件训练事件模型之前，先人工针对这个事件对所有训练视频的进行了标注（即标定事件标签），如果该训练视频属于这个事件（在视频中发生了该事件）则标定为1，否则标为0。

3.1针对感兴趣区域内的所有像素点的光流特征的SVM模型

由于在大量训练视频中标记事件是一项费时费力的工作，可用于训练的行车记录视频往往比较有限。为了从有限数目的训练视频训练得到泛化能力较好的模型，选取了SVM（支持向量机）用于事件模型训练，这是因为SVM具有较低的VC维，相比其他分类器可以使用较少的训练样本得到泛化能力较好的模型。同时，所提取的光流特征的维数较低，可能在低维空间上很难将样本分开，而SVM的核函数技术可以将低维数据映射到高维甚至无限维上去，这样便于样本的分类。综上，SVM是适合于行车记录视频浓缩技术的分类器。

训练时，需输入上述特征提取阶段提取的训练视频每一帧的光流特征和人工标定的每一帧的事件标签。对于某个事件，训练视频的每一帧只存在属于或者不属于这个事件两种情况，因此这是一个2分类问题。在分类模型中，SVM是Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起，然后扩展到线性不可分的情况，甚至扩展到使用非线性函数中去。

训练阶段，只需要将带有类别标签的特征送入SVM进行训练，通过优化代价函数，我们便可以得到间隔最大、损失最小的分割训练样本的分割超平面，即事件模型。最后，输出每个事件的模型参数。

3.2针对感兴趣区域内的感兴趣点邻域的光流特征（局部光流特征）的词袋模型

Fei-fei Li在【11】中提出了用词袋模型表达图像的方法.他们认为,图像可以类比为文档(document),图像中的单词(words)可以定义为一个图像块(image patch)的特征向量.那么图像的词袋模型即是“图像中所有图像块的特征向量得到的直方图”。

训练时，首先需要输入上述特征提取阶段提取的训练视频每一帧的基于局部感兴趣点的光流特征和人工标定的每一帧的事件标签。

在特征提取阶段，已经提取了基于感兴趣点的局部光流特征，对上一步得到的局部光流特征进行聚类（可以使用K-means等聚类方法）,得到K个聚类中心（即，K个视觉词汇）,用聚类中心构建码本。对每个事件,通过最近邻计算该事件中的每个局部光流特征应该属于码本中的哪一个视觉词汇,从而得到该事件对应于该码本的词袋模型表示。

最后，用TF-IDF机制，为每个视觉词汇计算可表示其重要性的权重，即该词汇的IDF权重值：

其中，N为整个训练视频中所有局部光流特征的个数总和，n_k是整个训练视频中属于视觉词汇k（1～K）的局部光流特征出现的次数。

最后，输出所得到的K个聚类中心、每个词汇k在事件i下的词频TF及每个视觉词汇的IDF权重值。

至此，完成了训练阶段的事件模型的生成，下面说明在视频浓缩阶段的事件提取与视频浓缩操作（在对行车记录视频进行上述特征提取之后的操作）。

4、事件提取与视频浓缩

对于不同的特征模型，事件提取与视频浓缩方式也是不同的。

4.1利用光流特征的SVM模型的浓缩方式

事件提取时，我们将浓缩视频的每一帧提取的光流特征（即每一帧全局的光流特征）送入这个事件的SVM模型中去，判断每一帧中是否发生这个事件。模型会输出每帧属于每个事件i的概率p_i：

其中，为从待检测视频的每帧提取的上述光流特征，f_i(x)为待检测视频的该帧在事件i的事件模型（SVM模型）下的得分，共有N个事件。经过上述计算，可将此帧分类为概率最大的事件（p_i取最大值时所对应的事件i）。若待检测视频的连续几帧均被SVM模型判别为该事件（在同一个i的情况下，p_i取最大值），则截取这个视频片段，加入到浓缩视频中去。

4.2利用局部光流特征的词袋模型的浓缩方式

首先，按照与训练阶段相同的视觉词汇的提取方法提取需要浓缩的视频中的每一帧的视觉词汇，然后通过计算来判断这一帧属于哪种事件（发生了N个事件中的哪个）。

在判断时，首先需要计算视频帧中的每个局部光流特征与每个视觉词汇的中心点（聚类中心）的距离，把每个局部光流特征归类为距离最近的那个视觉词汇，完成投影过程。然后用TF-IDF加权技术得到各个事件相对于这次检索任务中的视频帧的相似度。即，利用TF-IDF机制，对事件列表中的事件（N个事件）分别进行打分。

具体地，首先提取在训练过程中得到的每个词汇k在事件i下的词频（TF，即词汇k在事件i中出现的次数，用表示），并针对事件对其进行归一化（即并乘以相应视觉词汇k的反文档词频(IDF)权重（w_k），这样便计算得到了这一帧属于事件i的得分s_i（如下式所示）。最后将此帧分类为得分最高的事件。

其中g_k(x_m)表示该视频帧的局部光流特征x_m（m=1,…,M，M表示这一帧特征的数量）是否被投影（是否被归类）到了词汇k，若被投影到了视觉词汇k，g_k(x)＝1，否则为0。将视频帧分类为得分s_i最高的事件。

当连续的几帧均被判别为该事件时，这段视频片段则视为该事件发生，我们便可以将其截取，加入浓缩视频中。

4.3结合两种模型的浓缩方式

可采用结合上述两种模型的事件识别和视频浓缩方式，以达到更好的效果。

首先按照1）和2）方式中的方法，便可以得到某一帧属于每一个事件i的概率p_i和得分s_i，然后我们按照下式计算其属于事件i的概率d_i，

其中，0＜u＜1，为权重。前两种方式可以看做u＝0和u＝1的特殊情况。

最后将此帧分类为概率d_i最大的事件。当连续的几帧均被判别为该事件时，这段视频片段则视为该事件发生，我们便可以将其截取，加入浓缩视频中。

参考文献列表：

[1]Nam J,Tewfik A H.Video abstract of video[C]//Multimedia SignalProcessing,1999IEEE3rd Workshop on.IEEE,1999:117-122.

[2]Petrovic N,Jojic N,Huang T S.Adaptive video fast forward[J].Multimedia Tools and Applications,2005,26(3):327-344.

[3]Smith M A,Kanade T.Video skimming and characterization through thecombination of image and language understanding[C]//Content-Based Access ofImage and Video Database,1998.Proceedings.,1998IEEE International Workshopon.IEEE,1998:61-70.

[4]Kim C,Hwang J N.An integrated scheme for object-based videoabstraction[C]//Proceedings of the eighth ACM international conference onMultimedia.ACM,2000:303-311.

[5]Zhu X,Wu X,Fan J,et al.Exploring video content structure forhierarchical summarization[J].Multimedia Systems,2004,10(2):98-115.

[6]Rav-Acha A,Pritch Y,Peleg S.Making a long video short:Dynamicvideo synopsis[C]//Computer Vision and Pattern Recognition,2006IEEE ComputerSociety Conference on.IEEE,2006,1:435-441.

[7]Kang H W,Chen X Q,Matsushita Y,et al.Space-time video montage[C]//Computer Vision and Pattern Recognition,2006IEEE Computer Society Conferenceon.IEEE,2006,2:1331-1338.

[8]Pritch Y,Rav-Acha A,Gutman A,et al.Webcam synopsis:Peeking aroundthe world[C]//Computer Vision,2007.ICCV2007.IEEE11th International Conferenceon.IEEE,2007:1-8.

[9]Pritch Y,Rav-Acha A,Peleg S.Nonchronological video synopsis andindexing[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2008,30(11):1971-1984.

[10]Lowe D G.Distinctive image features from scale-invariantkeypoints[J].International journal of computer vision,2004,60(2):91-110.

[11]L.Fei-Fei and P.Perona(2005)."A Bayesian Hierarchical Model forLearning Natural Scene Categories".Proc.of IEEE Computer Vision and PatternRecognition.pp.524–531.

为了避免使本说明书的描述限于冗繁，在本说明书中的描述中，可能对可在上述参考文献或其它现有技术资料中获得的部分技术细节进行了省略、简化、变通等处理，这对于本领域的技术人员来说是可以理解的，并且，这不会影响本说明书的公开充分性。在此，将上述参考文献通过引用全文合并于此。

综上所述，本领域的技术人员能够理解，对本发明的上述实施例能够做出各种修改、变型、以及替换，其均落入如所附权利要求限定的本发明的保护范围。

Claims

1.一种基于学习的行车记录视频浓缩方法，包括以下步骤：

步骤10、在行车记录视频的感兴趣区域中，逐帧提取所有像素点的光流矢量，产生所述感兴趣区域的光流特征；

步骤20、将所述光流特征按帧输入到与每个事件对应的事件模型，对每帧计算其中发生每个事件的概率；

步骤30、将每帧标记为：对该帧计算的发生概率最大的事件；以及

步骤40、如果所述行车记录视频的连续多帧被标记为同一事件，则截取所述行车记录视频的连续多帧，作为与该事件对应的浓缩视频，

其中，所述事件模型是词袋模型，在所述步骤20中，通过以下公式计算在行车记录视频的每帧中发生每个事件i的概率s_i：

<mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mfrac> <msubsup> <mi>t</mi> <mi>k</mi> <mi>i</mi> </msubsup> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </msubsup> <msubsup> <mi>t</mi> <mi>k</mi> <mi>i</mi> </msubsup> </mrow> </mfrac> <msub> <mi>w</mi> <mi>k</mi> </msub> <msub> <mi>g</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中，为在词袋模型的训练阶段得到的、词汇k在事件i中出现的次数，g_k(x_m)表示该视频帧的每个关键像素点的邻域的所述光流特征x_m是否被投影到了词汇k，M为当前帧所述光流特征x_m的总数，K为所述词汇的类别总数，若光流特征x_m被投影到了视觉词汇k，g_k(x_m)＝1，否则g_k(x_m)＝0，

其中，

其中，N为在词袋模型的训练阶段得到的、在训练视频中所有关键像素点的邻域的所述光流特征的总数，n_k是在词袋模型的训练阶段得到的、在训练视频中属于视觉词汇k的所述光流特征出现的次数。

2.根据权利要求1所述的行车记录视频浓缩方法，其中，所述感兴趣区域是行车记录视频的每帧中的固定区域，其是通过人工或自动的方式选择的。

3.根据权利要求2所述的行车记录视频浓缩方法，其中，所述步骤10包括以下步骤：

步骤10-1、将每个像素的光流矢量量化到以下8个角度范围之一：(-22.5°，22.5°]、(22.5°，67.5°]、(67.5°，112.5°]、(112.5°，157.5°]、(157.5°，202.5°]、(202.5°，247.5°]、(247.5°，292.5°]和(292.5°，337.5°]；

步骤10-2、计算并记录光流矢量的水平方向分量大小、垂直方向分量大小、以及幅值；

步骤10-3、统计并记录以下直方图：

1)其光流矢量属于各个角度范围的像素点的个数的统计直方图；

2)量化到各个角度范围的所有像素的光流矢量的水平分量大小之和的统计直方图；

3)量化到每个角度范围的所有像素的光流矢量的垂直分量大小之和的统计直方图；

4)量化到每个角度范围的所有像素的光流矢量的幅值之和的统计直方图；

步骤10-4、将上述4个直方图级联，级联后的直方图作为所述光流特征。

4.根据权利要求3所述的行车记录视频浓缩方法，其中，所述事件模型是支持向量机模型，在所述步骤20中，通过以下公式计算在行车记录视频的每帧中发生每个事件i的概率p_i：

<mrow> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msub> <mi>f</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中，x为从所述行车记录视频的每帧提取的所述光流特征，f_i(x)为所述行车记录视频的该帧在事件i的事件模型下的得分，N为事件的总数。

5.根据权利要求3所述的行车记录视频浓缩方法，还包括以下步骤：

步骤11、通过SIFT特征中提取感兴趣点的方法，在每帧的感兴趣区域中选取多个关键像素点；

步骤12、在以每个关键像素点为圆心、半径为r的邻域内，提取每个像素点的光流矢量，并得到每个关键像素点的邻域的所述光流特征。

6.根据权利要求5所述的行车记录视频浓缩方法，其中，在所述步骤20中，通过以下公式计算在行车记录视频的每帧中发生每个事件i的概率d_i：

<mrow> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>u</mi> <mo>)</mo> </mrow> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>+</mo> <mi>u</mi> <mfrac> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msub> <mi>s</mi> <mi>i</mi> </msub> </mrow> </mfrac> </mrow>

其中，0＜u＜1，

其中，x为从所述行车记录视频的每帧提取的所述感兴趣区域的所述光流特征，f_i(x)为所述行车记录视频的该帧在事件i的事件模型下的得分，N为事件的总数，

其中，

其中，为在词袋模型的训练阶段得到的、词汇k在事件i中出现的次数，g_k(x_m)表示该视频帧的每个关键像素点的邻域的所述光流特征x_m是否被投影到了词汇k，M为当前帧所述光流特征x_m的总数，K为所述词汇的类别总数，光流特征x_m被投影到了视觉词汇k，g_k(x_m)＝1，否则g_k(x_m)＝0，

其中，