CN100559376C

CN100559376C - 生成视频摘要的方法、系统及设备

Info

Publication number: CN100559376C
Application number: CNB2008100682096A
Authority: CN
Inventors: 李世平
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2008-06-30
Filing date: 2008-06-30
Publication date: 2009-11-11
Anticipated expiration: 2028-06-30
Also published as: US20100284670A1; CN101308501A; WO2010000163A1

Abstract

本发明涉及电子通信及视频图像处理领域，提供了一种生成视频摘要的方法、系统及设备。所述方法包括以下步骤：A.接收输入的视频，并对视频进行分割，得到候选时间点序列；B.通过镜头分割算法从所述候选时间点序列中筛选得到跳跃时间点序列；C.根据跳跃时间点序列提取与各跳跃时间点对应的视频片段，并合成为视频摘要输出。本发明在生成视频摘要的过程中，首先求取每个视频帧的特征向量，并通过分级聚类方式筛选出跳跃时间点序列，再基于跳跃时间点序列提取对应的视频帧组成视频摘要，从而可覆盖尽可能多的镜头且视频帧之间画面差异性最大，增强了视频摘要的信息完备性；另外，本发明对视频类型无要求，提高了技术应用的普适性。

Description

生成视频摘要的方法、系统及设备

技术领域

本发明涉及电子通信及视频图像处理，更具体地说，涉及一种生成视频摘要的方法、系统及设备。

背景技术

随着计算机技术和多媒体技术的发展，人们接触到的多媒体资源日益丰富。然而，每个人的时间都是有限的，不可能浏览所有接触到的多媒体资源，因此需要在浩瀚的信息资源中快速寻找到自己感兴趣的信息。这就好像人们在看一篇文章的时候，可以先看一下摘要，然后确定对这篇文章是否感兴趣；在浏览大量图片时，可以先看一下缩略图，然后确定感兴趣的图片。然而，人们在观看视频时，却没有一种特别有效的方法能快速且尽可能全面地获知视频中的信息。假如只看视频中的一个片段，或者采用手动跳跃观看的方法，都将无法获取全面的信息，会存在大量重要信息的遗漏。

目前存在一种根据视频流生成视频摘要的方法及系统，该系统包括镜头边界检测单元、镜头分类单元和精彩镜头检测单元，如附图1所示。基于该系统生成视频摘要的过程如附图2所示，具体如下：

在步骤S201中，镜头边界检测单元接收输入的视频流，应用基于滑动平均窗帧差的镜头边界检测方法对所述视频流进行镜头边界检测，得到镜头集。其中，镜头边界检测方法涉及“视频内容结构化”技术：视频媒体的无结构性是阻碍新一代视频应用的瓶颈问题，为了解决视频的无结构性问题，研究者提出了“视频内容结构化”的技术途径。视频内容结构化技术分为低、中、高三层，镜头探测技术是低层视频结构化分析中的一项关键技术，在视频检索中起着重要作用，好的镜头边界检测技术能为视频结构化分析打下坚实的基础，使更高层的语义视频处理成为可能。

在步骤S202中，镜头分类单元接收到镜头集后，应用基于子窗口区域的镜头分类方法将所述镜头集进行镜头分类。由于该方法中采用的镜头边界检测技术主要适用于体育赛事，因此针对体育赛事的视频步骤S202具体包括：镜头分类单元接收经过边界检测的镜头集，求取每个镜头的关键帧；按照预先规定的子窗口定位规则，在关键帧中定位出多个子窗口；统计各子窗口中的赛场色像素所占比率和/或边缘像素所占比率，并根据所述赛场色像素所占比率和/或边缘像素所占比率确定镜头类型。

在步骤S203中，精彩镜头检测单元对已经分类的镜头集进行精彩镜头检测，将检测到的精彩镜头作为视频摘要输出。该方法主要适用于体育赛事，因此在体育赛事中步骤S203的具体过程包括：精彩镜头检测单元接收分类的镜头集以及视频流，并提取出音频信息；检测赛场关键区域及关键对象的位置及距离，例如球门和足球位置之间的距离；然后检测音频中是否有欢呼声，是否有关键词等，并将具备上述要素的镜头提取出来，组成视频摘要。

由上可知，现有技术是首先得到已经进行边界检测的镜头集，在此基础上进行镜头分类和精彩镜头检测，生成视频摘要。但是该技术存在一些缺陷：首先，检测的最终结果是精彩镜头，并不能覆盖尽可能多的镜头从而得到最完备的视频摘要，因此无法充分满足用户获取全面信息的需求；另外，镜头边界检测技术对摄像机的运动和大物体的进入具有很好的鲁棒性，但是很难做到普适性，仅适用于体育赛事等特定类型的视频。

因此需要一种新的生成视频摘要的方法，能够增强视频摘要的信息完备性，并提高应用的普适性。

发明内容

本发明的目的之一在于提供一种生成视频摘要的方法、系统及设备，旨在解决现有技术在生成视频摘要的过程中存在的信息完备性差、应用的普适性低的问题。

为了实现发明目的，所述生成视频摘要的设备包括视频分割单元、跳跃时间点计算单元和视频摘要合成单元；

所述视频分割单元对视频进行分割，得到候选时间点序列；

所述跳跃时间点计算单元与视频分割单元进行数据交互，对视频帧进行遍历，指向各个当前的候选时间点，并获取所述候选时间点对应的视频帧，计算得到所有候选时间点对应的视频帧的特征向量，计算所有特征向量两两之间的相似度，筛选出相似度最大的候选时间点，从而组成跳跃时间点序列；

所述视频摘要合成单元与跳跃时间点计算单元进行数据交互，根据跳跃时间点序列提取与各跳跃时间点对应的视频片段，并合成为视频摘要。

优选地，所述视频分割单元对视频进行等距分割，得到候选时间点序列。

优选地，所述跳跃时间点计算单元进一步包括视频帧遍历模块、特征向量计算模块和分级聚类模块；

所述视频帧遍历模块对视频帧进行遍历，指向各个当前的候选时间点，并获取所述候选时间点对应的视频帧；

所述特征向量计算模块与视频帧遍历模块进行数据交互，基于视频帧遍历模块获取的视频帧，计算得到所有候选时间点对应的视频帧的特征向量；

所述分级聚类模块与特征向量计算模块进行数据交互，根据得到的特征向量，通过分级聚类算法从候选时间点序列中筛选出跳跃时间点序列。

优选地，所述分级聚类模块进一步包括相似度计算模块、筛选模块；

所述相似度计算模块计算所有特征向量两两之间的相似度D_i，j；

所述筛选模块通过对相似度D_i，j进行对比，筛选出M个两两之间相似度D_i，j最大的候选时间点，从而组成跳跃时间点序列；

其中，0≤i，j≤N，i≠j，0＜M＜N，N是特征向量的个数，i、j分别代表第i、j个特征向量。

为了更好地实现发明目的，本发明还提供了一种生成视频摘要的系统，包括用于接收视频并输出视频摘要的输入输出单元，还包括视频分割单元、跳跃时间点计算单元和视频摘要合成单元；

所述视频分割单元与输入输出单元进行数据交互，对接收到的视频进行分割，得到候选时间点序列；

所述视频摘要合成单元分别与输入输出单元和跳跃时间点计算单元进行数据交互，根据跳跃时间点序列提取与各跳跃时间点对应的视频片段，合成为视频摘要并送入输入输出单元。

为了更好地实现发明目的，本发明还提供了一种生成视频摘要的方法，所述方法包括以下步骤：

A.对视频进行分割，得到候选时间点序列；

B.对视频帧进行遍历，指向各个当前的候选时间点，并获取所述候选时间点对应的视频帧，计算得到所有候选时间点对应的视频帧的特征向量，计算所有特征向量两两之间的相似度，筛选出相似度最大的候选时间点，从而组成跳跃时间点序列；

C.根据跳跃时间点序列提取与各跳跃时间点对应的视频片段，并合成为视频摘要输出。

优选地，所述步骤A之前还包括：接收输入的视频。

优选地，所述步骤A进一步包括：

对接收到的视频进行等距分割，得到候选时间点序列。

优选地，所述步骤B进一步包括：

B1.计算所有候选时间点对应的视频帧的特征向量；

B2.根据得到的特征向量，通过分级聚类算法从候选时间点序列中筛选出跳跃时间点序列。

优选地，所述步骤B1进一步包括：

B11.对视频帧进行遍历，指向当前的候选时间点，并获取所述候选时间点对应的视频帧；

B12.计算所述视频帧的特征向量；

B13.判断是否存在下一个候选时间点：若是，则转步骤B11；若否，则执行步骤B2。

优选地，所述步骤B2进一步包括：

B21.计算所有特征向量两两之间的相似度D_i，j；

B22.对相似度D_i，j进行对比，筛选出M个两两之间相似度D_i，j最大的候选时间点，从而组成跳跃时间点序列；

由上可知，本发明在生成视频摘要的过程中，与现有技术的区别在于，首先求取每个视频帧的特征向量，并通过分级聚类方式筛选出跳跃时间点序列，再基于跳跃时间点序列提取对应的视频帧组成视频摘要，从而可覆盖尽可能多的镜头且视频帧之间画面差异性最大，因此增强了视频摘要的信息完备性；另外，本发明是在视频分割片段的层面上对视频帧进行筛选，对视频类型无要求，因此提高了技术应用的普适性。

附图说明

图1是现有技术中生成视频摘要的系统结构示意图；

图2是现有技术中生成视频摘要的方法流程图；

图3是本发明的一个实施例中生成视频摘要的系统结构图；

图4A-B是本发明的一个实施例中视频分割后视频帧的候选时间点及跳跃时间点的示意图；

图5是本发明的一个实施例中生成视频摘要的设备结构图；

图6是本发明的一个实施例中跳跃时间点计算单元的内部结构图；

图7是本发明的一个实施例中视频摘要合成单元的内部结构图；

图8是本发明第一实施例中生成视频摘要的方法流程图；

图9是本发明第二实施例中生成视频摘要的方法流程图；

图10是本发明的一个实施例从候选时间点序列中筛选得到跳跃时间点序列的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

由于视频快速预览技术的实质就是在最短时间内获取视频中尽可能多的信息。以一部120分钟的影片为例，假设其中有30个镜头，平均每个镜头4分钟，现在要求在4分钟内获知影片的信息。第一种方法是花4分钟观看其中一个镜头；第二种方法是每个镜头观看8秒钟，然后跳跃到下一个镜头，一共花费也是4分钟时间。显然，第二种观看方式能获取更多的信息。因此，视频快速预览的问题即转变成如何从视频中找到各个镜头切换点的问题。而镜头的特点是，通常两个不同镜头的视频画面存在较大的差异，而镜头内部的视频帧之间通常差异较少，因此视频快速预览的问题，又可转变成如何在视频中寻找画面差异性最大的一系列视频帧的问题。

因此本发明采取的策略是：首先对接收的视频进行分割得到候选时间点序列，然后求取每个视频帧的特征向量，并通过分级聚类的方式从候选时间点序列中筛选出跳跃时间点序列，从而可覆盖尽可能多的镜头且视频帧之间画面差异性最大，然后再提取对应的视频帧组成视频摘要。由此可知，按照本发明的技术方案生成视频摘要，可增强信息完备性，能够满足用户获取全面信息的需求。

图3示出了本发明的一个实施例中生成视频摘要的系统结构，包括输入输出单元101、视频分割单元102、跳跃时间点计算单元103和视频摘要合成单元104。应当说明的是，本发明所有图示中各设备之间的连接关系是为了清楚阐释其信息交互及控制过程的需要，因此应当视为逻辑上的连接关系，而不应仅限于物理连接。另外需要说明的是，各功能模块之间的通信方式可以采取多种，例如可通过蓝牙、红外线等无线方式进行数据通信，当然也可采取以太网线、光纤等有线连接方式来实现数据的交互，因此本发明的保护范围不应限定为某种特定类型的通信方式。其中：

(1)输入输出单元101与视频分割单元102、视频摘要合成单元104分别进行数据交互，用于接收输入的视频并送入视频分割单元102，以及将视频摘要合成单元104生成的视频摘要输出。

(2)视频分割单元102与输入输出单元101进行数据交互，对接收到的视频进行分割，得到候选时间点序列。

一般情况下，视频分割单元102对接收到的视频进行等距分割以得到候选时间点序列。在该情形下，候选时间点的计算过程如下：首先，假设视频长度为t_m，候选时间点个数为N。那么，两个候选时间点之间的间隔dur即为t_m/N，候选时间点即为{x_i|x_i＝dur×i，0≤i＜N}，其中x_i表示第i个候选时间点所在的位置。关于该候选时间点，可参照图4A和图4B的示意图，其中1-16个时间点均为候选时间点。需要说明的是，本发明还可采取其他可行的方式得到候选时间点，并不限于上述等距分割的方式。

(3)跳跃时间点计算单元103与视频分割单元102进行数据交互，通过镜头分割算法从候选时间点序列中筛选得到跳跃时间点序列。本发明所称的跳跃时间点，就是指快速预览时从一个视频片段切换到下一个视频片段的时间点。在本发明中，为了增强视频摘要的信息完备性，跳跃时间点的筛选需遵循一个原则：所选出的M(0＜M＜N)个跳跃时间点既保证能够覆盖尽可能多的镜头，而对应视频帧的画面差异性也是最大的。跳跃时间点个数M的计算过程如下：首先，假设视频预览时间为t_p，每个跳跃时间点上的视频回放时间是t_j。那么，跳跃时间点个数M＝t_p/t_j。

关于该跳跃时间点，可参照图4A和图4B的示意图，可根据跳跃时间点提取相应的视频帧组成视频摘要，在一个实施例中，就是从1-16个候选时间点中筛选出第1、3、6、10、13、15个候选时间点作为跳跃时间点。但是存在两种提取方案：若各时间点与其之后的视频帧对应，那么第一个时间点即可作为跳跃时间点，最后一个时间点无法作为跳跃时间点，那么筛选出的跳跃时间点的分布则如图4A所示，其中跳跃时间点为突出显示，提取时则提取该跳跃时间点之后的视频帧；若各时间点与其之前的视频帧对应，那么第一个时间点无法作为跳跃时间点，最后一个时间点可作为跳跃时间点，上述筛选出的跳跃时间点的分布则如图4B所示，其中跳跃时间点为突出显示，提取时则提取该跳跃时间点之前的视频帧。关于跳跃时间点的筛选过程，将在后述图6中详细阐述。

(4)视频摘要合成单元104分别与输入输出单元101和跳跃时间点计算单元103进行数据交互，根据跳跃时间点序列提取与各跳跃时间点对应的视频片段，合成为视频摘要并送入输入输出单元101。关于视频摘要合成单元104的具体内容，将在后述图7中详细阐述。

图5示出了本发明的一个实施例中生成视频摘要的设备结构。该设备即视频处理设备100，包括视频分割单元102、跳跃时间点计算单元103、视频摘要合成单元104。其中：

(1)视频分割单元102对视频进行分割，得到候选时间点序列。

(2)跳跃时间点计算单元103与视频分割单元102进行数据交互，通过镜头分割算法从候选时间点序列中筛选得到跳跃时间点序列。

(3)视频摘要合成单元104与跳跃时间点计算单元103进行数据交互，根据跳跃时间点序列提取与各跳跃时间点对应的视频片段，合成为视频摘要并送入输入输出单元101。

上述功能单元与图3所示系统中的各功能单元分别保持一致，但是与图3所示系统相比，该视频处理设备100仅负责对视频进行数据处理从而得到视频摘要，因此该独立的视频处理设备100在应用上更接近插件形式，可使应用范围更加灵活广泛。

图6示出了本发明中的一个实施例中跳跃时间点计算单元103的内部结构，包括视频帧遍历模块1031、特征向量计算模块1032和分级聚类模块1033。其中：

(1)视频帧遍历模块1031对视频帧进行遍历，指向各个当前的候选时间点并获取该候选时间点对应的视频帧，以及判断是否存在下一个候选时间点，若存在，则指向下一个候选时间点，直到所有候选时间点均询问完毕为止。

(2)特征向量计算模块1032与视频帧遍历模块1031进行数据交互，基于视频帧遍历模块1031获取的视频帧，计算得到所有候选时间点对应的视频帧的特征向量。由于视频帧是某一时间点的视频画面，是一幅图像，而视频帧的特征向量标识视频帧的画面特点，因此本发明将其作为判别两个视频帧之间差异的依据。在本发明中，用于标识视频帧的特征很多，包括图像颜色特征、图像纹理特征、图像形状特征、图像空间关系特征以及图像高维特征等。

在一个实施例中，以“图像颜色特征”作为“视频帧特征向量”，计算过程如下：1.将视频帧图像按水平中线和垂直中线平分成四个图像块；2.对每个图像块提取直方图(Histgram)，直方图是指图像在各个颜色值上的分布曲线，本实施例将直方图中的最大值、最大值对应的颜色值、方差作为该图像块的特征值。

其中，求直方图的步骤如下：设定直方图向量集{H_i|0≤i≤255}，将每个H_i初始化为零；遍历当前图像块的每个像素点；对于当前像素点，计算其灰度值val＝(r+g+b)/3。其中：r、g、b表示红、绿、蓝三个颜色分量，H_val＝H_val+1。

求直方图的最大值，即最大的H_i值；最大值对应的颜色值，即为其下标i；方差公式(将x_i替换成H_i即可)如下：若x为一组数据x₁，x₂，x₃Λx_n的平均数，S²为这组数据的方差，则有：

S^{2} = \frac{1}{n} [{(x_{1} - \overset{&OverBar;}{x})}^{2} + {(x_{2} - \overset{&OverBar;}{x})}^{2} + Λ + {(x_{n} - \overset{&OverBar;}{x})}^{2}] = \frac{1}{n} [{x_{1}}^{2} + {x_{2}}^{2} + Λ + {x_{n}}^{2}) - {n \overset{&OverBar;}{x}}^{2}] .

最后则得到该视频帧的特征向量为：s＝[s₁，s₂，...，s₁₂]^T。其中s₁，s₂，...，s₁₂依次表示4个图像块的直方图最大值、最大值对应的颜色值以及方差。

在另一个实施例中，以“图像形状特征”作为“视频帧特征向量”，常用的图像形状特征有边界特征、傅立叶形状描述符、形状不变矩等。本实施例采用基于Hough变换的边界特征法。其步骤如下：1.对当前的视频帧帧图像进行二值化。2.对二值化后的图像进行Hough变换，得到Hough[p][t]矩阵。所谓的Hough变换，其目的是把像素点转换成直线，直线的表达方式可以是y＝k*x+b形式，Hough变换后得到是Hough矩阵，矩阵中元素的水平和垂直位置表示直线的参数，其参数值表示在这条直线上的像素个数。关于Hough变换的具体内容，可参考现有技术。3.求得Hough[p][t]矩阵中最大的4个值，将这4个值及其所在的水平和垂直位置组成视频帧的特征向量。需要说明的是，Hough[p][t]矩阵中最大的4个值对应图像帧中4条最明显的直线。

需要说明的是，上述以“图像颜色特征”或“图像形状特征”作为“视频帧特征向量”的示例仅为两个典型实施例，本发明的保护范围并不限于上述的实现方式。

(3)分级聚类模块1033与特征向量计算模块1032进行数据交互，根据得到的特征向量，通过分级聚类算法从候选时间点序列中筛选出跳跃时间点序列。在一个实施例中，该分级聚类模块1033进一步包括相似度计算模块10331和筛选模块10332。其中：

1.相似度计算模块10331计算所有特征向量两两之间的相似度D_i，j。由于共存在N个特征向量，则两两之间的相似度D_i，j的值共有C_N ²个。在一个实施例中，相似度D_i，j的计算过程是：首先定义N组特征向量为{f_i|1≤i≤N}，其中f_i表示第i个特征向量；然后，计算N组特征向量两两之间的相似度。用于衡量相似度的算子有多种，例如欧式距离、马氏距离、概率距离等。

本发明的一个实施例中采用等概率绝对值距离，计算过程如下：假设两个视频帧对应的特征向量f_i和f_j分别为[s_i1，s_i2，...，s_i12]^T和[s_j1，s_j2，...，s_j12]^T，那么，其距离为：

D_{i, j} = Σ_{k = 1}^{12} | s_{ik} - s_{jk} | .

D_i，j越小，表示f_i和f_j越相似，即其对应的两个视频帧越相似；D_i，j越大，则反之。其中，0≤i，j≤N，i≠j，0＜M＜N，N是候选时间点的个数，也即特征向量的个数，i、j分别代表第i、j个特征向量。

本发明的另一实施例采用欧式距离，计算公式如下：

D_{i, j} = \sqrt{Σ_{k = 1}^{12} {(s_{ik} - s_{jk})}^{2}} .

需要说明的是，上述采用“等概率绝对值距离”或“欧式距离”计算特征向量之间相似度的示例仅为两个典型实施例，本发明的保护范围并不限于上述的实现方式。

2.筛选模块10332通过对相似度D_i，j进行对比，筛选出M个两两之间相似度D_i，j最大的候选时间点，从而组成跳跃时间点序列。

在一个实施例中，筛选模块10332采用分级聚类的算法将原N类聚合到M类，即M个跳跃时间点。具体筛选过程为：在C_N ²个特征距离中查找得到最小值，假定为D_m，n。接着对D_m，i和D_n，i进行比较(其中i为{i|1≤i≤nb，i≠m，i≠n})，将其中小的值赋值给D_m，i，并删除D_n，i。经过一次操作后后，特征向量f_n对应特征距离全部被删除，即剩下N-1个特征向量和C_N-1 ²个特征距离。继续进行上述分级聚类操作，直至剩下M个特征向量和C_M ²个特征距离，该M个特征向量对应的时间点即为M个跳跃时间点。

应当说明的是，筛选模块10332还可采取其他类似的方式筛选得到跳跃时间点序列，但是本发明的保护范围不限于此。

图7示出了本发明的一个实施例中视频摘要合成单元104的内部结构，该视频摘要合成单元104与跳跃时间点计算单元103进行数据交互，根据跳跃时间点序列提取与各跳跃时间点对应的视频片段，并合成为视频摘要。

在该实施例中，视频摘要合成单元104进一步包括视频帧提取模块1041、视频帧融合模块1042。其中：视频帧提取模块1041在每个跳跃时间点处均提取长度为t_j的视频片段，具体可参照前述附图4A、4B。视频帧融合模块1042将该M个长度为t_j的视频片段顺序组合，即得到长度为t_p＝t_j*M的视频摘要。由此则完成了从长度为t_m的视频中提取长度为t_p的视频摘要的过程，用户通过观看该长度为t_p的视频摘要，即可获得视频的基本信息，从而实现了视频快速预览的目的。

图8示出了本发明第一实施例中生成视频摘要的方法流程，该方法流程可基于图3所示的系统结构或图5所示的设备结构，具体过程如下：

在步骤S801中，输入输出单元101接收输入的视频。该视频可以是用户将所获取到的视频输入，也可以是自本地保存文件中提取后输入，还可以是其他任意形式输入的视频。

在步骤S802中，视频分割单元102对视频进行分割，得到候选时间点序列。

在步骤S803中，跳跃时间点计算单元103通过镜头分割算法从候选时间点序列中筛选得到跳跃时间点序列。本发明所称的跳跃时间点就是指快速预览时，从一个视频片段切换到下一个视频片段的时间点。跳跃时间点个数的计算过程如下：首先，假设视频预览时间为t_p，每个跳跃时间点上的视频回放时间是t_j。那么，跳跃时间点个数M＝t_p/t_j。步骤S803的具体过程可参考后述图10中的内容。

关于该跳跃时间点，可参照图4A和图4B的示意图，可根据跳跃时间点提取相应的视频帧组成视频摘要，在一个实施例中，就是从1-16个候选时间点中筛选出第1、3、6、10、13、15个作为跳跃时间点。但是存在两种提取方案：若各时间点与其之后的视频帧对应，那么第一个时间点即可作为跳跃时间点，最后一个时间点无法作为跳跃时间点，那么筛选出的跳跃时间点的分布则如图4A所示，其中跳跃时间点为突出显示，提取时则提取该跳跃时间点之后的视频帧；若各时间点与其之前的视频帧对应，那么第一个时间点无法作为跳跃时间点，最后一个时间点可作为跳跃时间点，上述筛选出的跳跃时间点的分布则如图4B所示，其中跳跃时间点为突出显示，提取时则提取该跳跃时间点之前的视频帧。步骤S803的具体实现过程，将在后述图10中详细阐述。

在步骤S804中，视频摘要合成单元104根据跳跃时间点序列提取与各跳跃时间点对应的视频片段，并合成为视频摘要。具体过程包括：视频帧提取模块1041在每个跳跃时间点处均提取长度为t_j的视频片段，具体可参照前述附图4A、4B。将该M个长度为t_j的视频片段顺序组合后，即得到长度为t_p＝t_j*M的视频摘要。此后，就完成了从长度为t_m的视频中提取长度为t_p的视频摘要的过程，用户通过观看该长度为t_p的视频摘要，即可获得视频的基本信息，从而实现了视频快速预览的目的。

在步骤S805中，输入输出单元101将视频摘要合成单元104合成得到的视频摘要输出。

图9示出了本发明第二实施例中生成视频摘要的方法流程，该方法流程可基于图3所示的系统结构或图5所示的设备结构，具体过程如下：

在步骤S901中，输入输出单元101接收输入的视频。该视频可以是用户输入，也可以是从本地保存文件中提取所得，还可以是其他任意形式输入的视频，本发明的保护范围并不限定于某种特定类型的视频输入来源及输入方式。

在步骤S902中，视频分割单元102对视频进行分割，得到候选时间点序列。该步骤S902的具体过程与前述步骤S802一致，此处不再赘述。

在步骤S903中，跳跃时间点计算单元103计算所有候选时间点对应的视频帧的特征向量。

在步骤S904中，跳跃时间点计算单元103根据得到的特征向量，通过分级聚类算法从候选时间点序列中筛选出跳跃时间点序列。

在步骤S905中，视频摘要合成单元104根据跳跃时间点序列提取与各跳跃时间点对应的视频片段，并合成为视频摘要。该步骤S905的具体过程与前述步骤S804一致，此处不再赘述。

在步骤S906中，输入输出单元101将视频摘要合成单元104合成得到的视频摘要输出。

图10示出了本发明的一个实施例从候选时间点序列中筛选得到跳跃时间点序列的方法流程，该方法流程基于图8所示方法流程中的步骤S803，该步骤主要由跳跃时间点计算单元103执行，具体过程如下：

在步骤S1001中，跳跃时间点计算单元103利用其视频帧遍历模块1031对视频帧进行遍历，指向当前的候选时间点，并获取该候选时间点对应的视频帧。

在步骤S1002中，特征向量计算模块1032计算该视频帧的特征向量。由于视频帧是某一时间点的视频画面，是一幅图像，而视频帧的特征向量标识视频帧的画面特点，因此本发明将其作为判别两个视频帧之间差异的依据。在本发明中，用于标识视频帧的特征很多，包括图像颜色特征、图像纹理特征、图像形状特征、图像空间关系特征以及图像高维特征等。

S^{2} = \frac{1}{n} [{(x_{1} - \overset{&OverBar;}{x})}^{2} + {(x_{2} - \overset{&OverBar;}{x})}^{2} + Λ + {(x_{n} - \overset{&OverBar;}{x})}^{2}] = \frac{1}{n} [{x_{1}}^{2} + {x_{2}}^{2} + Λ + {x_{n}}^{2}) - {n \overset{&OverBar;}{x}}^{2}] .

在步骤S1003中，视频帧遍历模块1031判断是否存在下一个候选时间点：若是，则转步骤S1001；若否，则执行步骤S804。

在步骤S1004中，分级聚类模块1033利用其相似度计算模块10331计算所有特征向量两两之间的相似度D_i，j。由于共存在N个特征向量，则两两之间的相似度D_i，j的值共有C_N ²个。在一个实施例中，相似度D_i，j的计算过程是：首先定义N组特征向量为{f_i|1≤i≤N}，其中f_i表示第i个特征向量；然后，计算N组特征向量两两之间的相似度。用于衡量相似度的算子有多种，例如欧式距离、马氏距离、概率距离等。

D_{i, j} = Σ_{k = 1}^{12} | s_{ik} - s_{jk} | .

本发明的另一实施例采用欧式距离，计算公式如下：

D_{i, j} = \sqrt{Σ_{k = 1}^{12} {(s_{ik} - s_{jk})}^{2}} .

在步骤S1005中，分级聚类模块1033利用其筛选模块10332对相似度D_i，j进行对比，筛选出M个相似度D_i，j最大的候选时间点，组成跳跃时间点序列。

由上可知，本发明在生成视频摘要的过程中，是通过首先求取每个视频帧的特征向量，并通过分级聚类方式筛选出跳跃时间点序列，再基于跳跃时间点序列提取对应的视频帧组成视频摘要，从而可覆盖尽可能多的镜头且视频帧之间画面差异性最大，因此增强了视频摘要的信息完备性；另外，本发明是在视频分割片段的层面上对视频帧进行筛选，对视频类型无要求，因此提高了技术应用的普适性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1、一种生成视频摘要的设备，其特征在于，包括视频分割单元、跳跃时间点计算单元和视频摘要合成单元；

所述视频分割单元对视频进行分割，得到候选时间点序列；

2、根据权利要求1所述的生成视频摘要的设备，其特征在于，所述视频分割单元对视频进行等距分割，得到候选时间点序列。

3、根据权利要求2所述的生成视频摘要的设备，其特征在于，所述跳跃时间点计算单元进一步包括视频帧遍历模块、特征向量计算模块和分级聚类模块；

4、根据权利要求3所述的生成视频摘要的设备，其特征在于，所述分级聚类模块进一步包括相似度计算模块、筛选模块；

5、一种生成视频摘要的系统，包括用于接收视频并输出视频摘要的输入输出单元，其特征在于，还包括视频分割单元、跳跃时间点计算单元和视频摘要合成单元；

6、一种生成视频摘要的方法，其特征在于，所述方法包括以下步骤：

A.对视频进行分割，得到候选时间点序列；

7、根据权利要求6所述的生成视频摘要的方法，其特征在于，所述步骤A之前还包括：接收输入的视频。

8、根据权利要求6或7所述的生成视频摘要的方法，其特征在于，所述步骤A进一步包括：

对接收到的视频进行等距分割，得到候选时间点序列。

9、根据权利要求8所述的生成视频摘要的方法，其特征在于，所述步骤B进一步包括：

B1.计算所有候选时间点对应的视频帧的特征向量；

10、根据权利要求9所述的生成视频摘要的方法，其特征在于，所述步骤B1进一步包括：

B12.计算所述视频帧的特征向量；

11、根据权利要求9所述的生成视频摘要的方法，其特征在于，所述步骤B2进一步包括：

B21.计算所有特征向量两两之间的相似度D_i，j；