CN101431689A

CN101431689A - 生成视频摘要的方法及装置

Info

Publication number: CN101431689A
Application number: CNA2007101651654A
Authority: CN
Inventors: 于俊清; 何云峰; 牛彩卿
Original assignee: Huawei Technologies Co Ltd; Huazhong University of Science and Technology
Current assignee: Huawei Technologies Co Ltd; Huazhong University of Science and Technology
Priority date: 2007-11-05
Filing date: 2007-11-05
Publication date: 2009-05-13
Anticipated expiration: 2027-11-05
Also published as: CN101431689B

Abstract

本发明公开了生成视频摘要的方法及装置，一种方法包括：接收视频文件；对所述视频文件的视觉精彩度进行处理；对所述视频文件的声音精彩度进行处理；将满足视觉精彩度和声音精彩度的关联镜头组聚合成视频片断。背景技术中，对足球比赛视频文档根据音频特征、视觉特征、文本特征和运动特征等四种特征进行处理，得到足球视频摘要，采用本发明实施例生成视频摘要的方法及装置，对视频文件的视觉精彩度和/或声音精彩度进行处理，减少特征种类，降低计算复杂度，提高视频摘要生成的效率和准确率。

Description

生成视频摘要的方法及装置

技术领域

本发明涉及视频处理技术领域，特别涉及生成视频摘要的方法及装置。

背景技术

作为一种团体对抗性运动，足球已经融入人们的日常生活。随着足球赛事的不断增多，人们往往无法到比赛现场亲身观看，也难以通过视频看到所有的足球比赛，这样，足球视频摘要成为人们观看足球比赛的首选。

足球视频摘要是指对足球比赛视频文档的简短内容总结，通常通过提取足球比赛视频文档的特征建立足球视频摘要。足球比赛视频文档的特征包括：音频特征、视觉特征、文本特征和运动特征。

其中，音频特征包括讲解员的讲解声、观众的欢呼声、鼓掌声和背景噪声等；视觉特征包括球场轮廓、观众席区、球门区域和球门框等；文本特征包括足球比赛视频文档下方的字幕栏、左上角的台标栏和右上角的比分栏镜头回放前的台标等；运动特征包括摄像机的运动、球员的运动和球的运动等。

在特征提取时，提取的特征种类比较多，系统的运算量大；在提取运动特征时，运动对象有效的分离和跟踪复杂度高，计算困难，容易出错。

发明内容

本发明实施例的目的在于提供生成视频摘要的方法及装置，提高视频摘要生成的效率和准确率。

本发明实施例提供了一种生成视频摘要的方法，该方法包括：

接收视频文件；

对所述视频文件的视觉精彩度进行处理；

将满足视觉精彩度的关联镜头组聚合成视频片断。

本发明实施例还提供了一种生成视频摘要的方法，该方法包括：

接收视频文件；

对所述视频文件的声音精彩度进行处理；

将满足声音精彩度的关联镜头组聚合成视频片断。

接收视频文件；

对所述视频文件的视觉精彩度进行处理；

对所述视频文件的声音精彩度进行处理；

将满足视觉精彩度和声音精彩度的关联镜头组聚合成视频片断。

本发明实施例还提供了一种生成视频摘要的装置，该装置包括：

接收单元，用于接收视频文件；

视觉单元，用于对所述视频文件的视觉精彩度进行处理；

聚合单元，用于将满足视觉精彩度的关联镜头组聚合成视频片断。

接收单元，用于接收视频文件；

声音单元，用于对所述视频文件的声音精彩度进行处理；

聚合单元，用于将满足声音精彩度的关联镜头组聚合成视频片断。

接收单元，用于接收视频文件；

视觉单元，用于对所述视频文件的视觉精彩度进行处理；

声音单元，用于对所述视频文件的声音精彩度进行处理；

聚合单元，用于将满足视觉精彩度和声音精彩度的关联镜头组聚合成视频片断。

背景技术中，对足球比赛视频文档根据音频特征、视觉特征、文本特征和运动特征等四种特征进行处理，得到足球视频摘要，采用本发明实施例生成视频摘要的方法及装置，对视频文件的视觉精彩度和/或声音精彩度进行处理，减少特征种类，降低计算复杂度，提高视频摘要生成的效率和准确率。

背景技术中，对运动特征进行提取时，运动对象有效的分离和跟踪的复杂度高，计算困难，且对运动特征提取的准确性对视频摘要生成效果有很大影响，采用本发明实施例一种生成视频摘要的方法及装置，通过视频文件的视觉精彩度和/或声音精彩度进行处理，避免运动特征对视频摘要的影响，提高了视频摘要的准确率。

附图说明

图1是本发明生成视频摘要的方法实施例三的流程示意图；

图2是本发明生成视频摘要的方法实施例三中声音平均短时能量特征值入队的流程示意图；

图3是本发明生成视频摘要的方法实施例三中声音平均短时能量高声队列特征值重新入队列的流程示意图；

图4是本发明生成视频摘要的方法实施例三中声音平均短时能量低声队列特征值重新入队列的流程示意图；

图5是本发明生成视频摘要的方法实施例三中镜头提取结果示意图；

图6是本发明成视频摘要的装置实施例三的结构示意图。

具体实施方式

实施例一，一种生成视频摘要的方法，该方法包括：

步骤一、接收视频文件；

步骤二、对视频文件的视觉精彩度进行处理；

可以采用以下方式对视频文件的视觉精彩度进行处理：

将视频文件进行镜头边界检测，得到镜头集；对镜头集进行镜头分类；对已经分类的镜头集进行聚合，得到关联镜头组；计算各关联镜头组的权值之和。

可以采用以下方式对视频文件进行镜头边界检测：

计算视频文件两帧之间的主色比率绝对差Gd和颜色直方差Hd；通过主色比率绝对差Gd和颜色直方差Hd的多个阈值检测镜头的切变和渐变边界。

根据切变和渐变边界，得到镜头集。

可以采用以下方式对镜头集进行镜头分类：

提取镜头集中代表镜头类型的关键帧；将关键帧分类。

可以采用以下方式提取镜头集中代表镜头类型的关键帧：

取每个镜头的中间帧作为关键帧，一个镜头内的视频帧数目为N，当N为奇数时，取第(N±1)/2帧作为该镜头的关键帧；当N为偶数时，取第N/2帧作为该镜头的关键帧。对于每一个镜头而言，中心位置是视觉上最重要的位置，因此，取每个镜头的中间帧作为关键帧。

可以采用以下方式进行关键帧分类：

将关键帧由红、蓝、绿RGB三基色空间转换到色调、饱和度、亮度HSV空间；将每个视频帧分成若干区域；根据各区域的主色覆盖率将各区域划分为不同类别；为不同类别的区域分配不同的权值；根据权值将关键帧划分为以下类别：长镜头、半镜头、3/4镜头、球门镜头、特写镜头、中镜头、短镜头和其他镜头。

RGB转化到HSV空间的计算公式如下所示：

Max＝max(R，G，B) Min＝min(R，G，B)

H = \{\begin{matrix} (G - B) * 60 / (Max - Min), & if & Max = R, G &GreaterEqual; B \\ 360 + (G - B) * 60 / (Max - Min), & if & Max = R, G < B \\ 180 + (B - R) * 60 / (Max - Min), & if & Max = G \\ 240 + (R - G) * 60 / (Max - Min), & if & Max = B \end{matrix}

S＝(Max-Min)/Max

V＝Max

由于在视频文件中，一般都有一个主色，例如，在足球视频中，绿色为主色，在篮球视频中，篮球场地板的木板色为主色；滑冰视频中，冰的透明色为主色、、、而主色在视频帧的分布具有区域特征。一方面，视频帧中一般存在标志覆盖，例如：帧下面的字幕、左上角的台标、右上角的分数栏，这些标志覆盖都存在于固定的区域，区分出这些覆盖区域有利于减少标识覆盖对视频精彩度结果的影响。另一方面，在视频文件的图片帧中，不少具有水平性和对称性的特点，因此，可以将每个视频帧分为十六个区域，其中长宽各均分四等分，每个区域之间没有交集。

当视频文件为足球比赛视频时，主色为绿色，可以将各区域划分为：80％以上绿色覆盖区、50％至80％绿色覆盖区、20％至50％绿色覆盖区、20％以下绿色覆盖区。

为80％以上绿色覆盖区分配权值为100，50％至80％绿色覆盖区分配权值为10，20％至50％绿色覆盖区分配权值为1，20％以下绿色覆盖区分配权值为0。

根据权值得到不同类型的镜头：长镜头、半镜头、3/4镜头、球门镜头、特写镜头、中镜头、短镜头和其他镜头。

其中，长镜头，体现在区域特征上，是指中间两行区域为全主色状态的镜头，在足球视频中，长镜头是指中间两行区域为全绿色状态的镜头。

半镜头是中距离镜头的一种，用于描述比赛过程运动员运动中的中距离特写，体现在区域特征上，一般最上面两行都被覆盖，且最下面两行之可能存在列覆盖。

3/4镜头也是中距离镜头的一种，体现在区域特征上，一般是最上面三行都被覆盖，同时最下面一行区间的覆盖率在50％以下，在足球视频中，3/4镜头通常是球员带球动作的特写。

球门镜头，在足球视频中，球门镜头是球场外远距离摄像机对球门区域的跟踪，体现在区域特征上，从左到右，在主色覆盖率上具有递减或者递增的趋势，一般最上一行被覆盖，权值和最大值大于等于110。在足球视频中，球门镜头一般用于射门事件的识别。

特写镜头，体现在区域特征上，一般是由下至上递减的范围覆盖，最下面一行中有全覆盖区域，至少存在一列的列覆盖为零。在足球视频中，特写镜头包括运动员特写镜头和裁判特写镜头。

中镜头，体现在区域特征上，一般是列覆盖，即只有几列存在覆盖的情况，最下面一行不存在覆盖。在足球视频中，中镜头用于较远距离描述运动员带球或是过人。

短镜头，体现在区域特征上，一般都为全覆盖。在足球视频中，短镜头一般是对观众席的拍摄记忆对特写球员的跟踪。

其他镜头，用于表示由于运动产生的模糊而无法区分的镜头。

根据区域的权值得到不同类型的镜头，各类型镜头的权值不同，权值越高，与精彩镜头的关联度越大，球门镜头的权值为1、短镜头的权值为1、特写镜头的权值为2、3/4镜头的权值也为2、其他镜头的权值为0、

可以采用以下方式得到关联镜头组：根据被标识为长镜头的关键帧，查找对应的长镜头；生成以长镜头为开始镜头，下一个长镜头的前一个镜头为结束镜头的关联镜头组。

在比赛视频中，大量运动员集中在一个区域，可能会影响该镜头的行列特性，从而该镜头的视频帧中出现孤点，孤点的周围区域主色覆盖率在相同范围内，孤点的主色覆盖率不在周围区域主色覆盖率的范围内，由于孤点的存在，会破坏镜头主色覆盖率的连续性，容易造成镜头的误检，因此将孤点的主色覆盖率设置为周围区域主色覆盖率的均值。

计算各关联镜头组所包含镜头的权值之和作为各关联镜头组视觉精彩度，将视觉精彩度与不同阈值比较，当视觉精彩度在相应的阈值范围时，达到相应的精彩度级别。阈值可以根据视频文件的情况设定，也可以根据观众的需求设定。

视觉精彩度的阈值可以根据观众的需求设定，从而可以满足观众快速可调的精彩镜头提取要求，识别出各种精彩镜头，例如球星的精彩运球或过人等，提高了视频摘要生成的灵活性和可靠性。

在足球视频中，可以设定精彩度级别为一时，对应的阈值为四；精彩度级别为二时，对应的阈值为五；精彩度级别为三时，对应的阈值为七；精彩度级别为四时，对应的阈值为八。第一级别精彩度视频帧，为典型犯规镜头，容易误检；第二级别精彩视频帧为典型射门镜头，漏检犯规；第三级别精彩视频帧为典型进球镜头，易漏检；第四级别精彩视频帧为精彩度高镜头，多漏检。当视觉精彩度大于相应的阈值，则认为满足视觉精彩度要求。

也可以采用以下方式对视频文件的视觉精彩度进行处理：

将视频帧划分为若干区域，不同颜色代表不同的数值，根据颜色的数值及所占比例计算各区域的权值。例如，将视频文件分成十个区域，成两行五列的排列，红色代表八，绿色代表十，黑色代表一，白色代表五、、、第一行第一列的第一区域中，红色所占的比例为三分之一，绿色所占的比例为十分之一，黑色所占的比例为七分之一，白色所占的比例为十五分之一、、、将第一区域中所有颜色代表的数值与对应的比例乘积之和作为第一区域的权值，第一区域的权值作为第一区域的视觉精彩度。

步骤三、将满足视觉精彩度的关联镜头组聚合成视频片断。

利用符合视觉精彩度镜头关联组中的任意一个关键帧定位其所在的镜头关联组，找出符合视觉精彩度的镜头关联组。

将满足视觉精彩度的关联镜头组聚合成一个视频片断。

得到的视频片断组成视频摘要。

对于新闻报道、体育赛事、风景游览等等视频文件，为了在较短的时间内传递更多的信息，可以采用本实施例的方法将视频文件处理成视频摘要；对于对抗性体育赛事，例如马拉松、赛车、自行车比赛、溜冰、篮球、足球等，为了将赛事的精彩片段传递给观众，可以采用本实施例的方法将视频文件生成视频摘要。

采用本实施例中生成视频摘要的方法，仅对视频文件的视觉精彩度进行处理，减少特征种类，降低计算复杂度，提高视频摘要生成的效率和准确率。还可以避免运动特征对视频摘要的影响，进一步提高了视频摘要的准确率。

采用本实施例中生成视频摘要的方法，从视频文件的视觉信息入手，对镜头进行精彩程度的量化，可以依据用户的不同需求，得出包含不同精彩镜头的视频摘要，提高了视频摘要的灵活性和可靠性。

实施例二，一种生成视频摘要的方法，该方法包括：

步骤一、接收视频文件；

步骤二、对视频文件的声音精彩度进行处理；

可以采用如下方式对视频文件的声音精彩度进行处理：

提取视频文件的音频特征；

计算音频特征的权值；

根据不同的特征值阈值将音频特征的权值划分为若干个区间，对应不同的声音精彩度。

可以采用如下方式提取视频文件的音频特征：

对视频文件进行采样；计算每个采样点数据的声音平均短时能量特征值和声音平均过零率特征值。

一般，采样点选取在待检测视频的n等分点处，每次的采样长度为t(单位：秒)。对于不同长度的视频文件，选择不同的采样点个数，例如，对于一个十五分钟的视频，可以选择五至八个采样点，每次采样一分钟的数据，一分钟内包含若干个音频帧。

其中，平均短时能量(STE)是指在一个音频帧内，样本信号所积聚的平均能量，反映了声音信号振幅或能量随着时间的变化规律。

平均过零率是指在一个音频帧内，离散采样信号值由正到负和由负到正变化的次数与音频帧长度的比值，即一帧语音中信号波形穿过横轴相邻两个采样点改变符号的比率，是音频信号在一帧内的平均频率的反映。

可以根据声音平均短时能量特征值或声音平均过零率特征值的均值和特征值的个数，计算音频特征的权值。

计算声音平均短时能量特征值或声音平均过零率特征值的均值；对于每一种音频特征，平均短时能量或平均过零率，在每一个采样点处，采集到k个值，而每个值相对于均值都有较高或较低的区别，将比均值大的声音平均短时能量特征值或声音平均过零率特征值作为高声特征值，将比均值小的声音平均短时能量特征值或声音平均过零率特征值作为低声特征值；选择两个队列存放采样点的k个值，将高声特征值入高声队列，低声特征值入低声队列，由于每个采样点有两种特征值(声音平均短时能量特征值或声音平均过零率特征值)，每种特征值需要两个队列(高声队列和低声队列)，对于n个采样点，需要4n个队列，每个队列有两个参数：均值和特征值个数。

将音频特征入队，包括将声音平均短时能量特征值入短时能量高声队列和短时能量低声队列，以及将声音平均过零率特征值入过零率高声队列和归零率低声队列，每种特征值入队的流程相同，下面仅以声音平均短时能量特征值入队为例进行说明，入队的流程包括：

步骤(一)、初始化短时能量高声队列和短时能量低声队列。k个声音平均短时能量特征值的头两个中较高的值入队短时能量高声队列，较低的值入队短时能量低声队列。同时，将短时能量高声队列的均值aveH初始化为入队第一个值，将短时能量低声队列的均值aveL初始化为入队第一个值。特征值个数均初始化为一。

步骤(二)、判断是否越界，即判断是否正在操作第k个特征值，如果是，则退出入队流程；如果不是，则转入步骤(三)。

步骤(三)、读取下一个特征值i。

步骤(四)、计算特征值i与短时能量高声队列均值的差m＝aveH-i，计算特征值i与短时能量低声队列均值的差n＝i-aveL。

步骤(五)、判断m是否小于n，如果是，则转入步骤(六)，如果不是，则转入步骤(七)。

步骤(六)、特征值i插入高声队列，并修改队列参数，将原短时能量高声队列均值与特征值i的平均值作为新短时能量高声队列均值，将原特征值个数加一；转入步骤步骤(八)。

步骤(七)、特征值i插入低声队列，并修改队列参数，将原短时能量低声队列均值与特征值i的平均值作为新短时能量低声队列均值，将原特征值个数加一；转入步骤(八)。

步骤(八)、判断特征值i是否小于原短时能量高声队列均值或原短时能量低声队列均值，如果是，则转入步骤(九)；否则，转入步骤(十)。

步骤(九)、短时能量低声队列特征值重新入队列，转入步骤(二)。

步骤(十)、短时能量高声队列特征值重新入队列，转入步骤(二)。

其中，短时能量高声队列特征值重新入队列的流程如下：

步骤A、将短时能量高声队列中的特征值由小到大排序。

步骤B、判断队列是否越界，即是否超过该队列长度，如果是，则转入步骤F，如果否，则转入步骤C。

步骤C、将队列中的第一个特征值分别与短时能量高声队列均值和短时能量低声队列均值进行比较，如果更接近短时能量低声队列均值，则转入步骤D，否则，则转入步骤F。

步骤D、将特征值插入短时能量低声队列，同时调整短时能量高声队列和短时能量低声队列的参数，即调整均值和特征值个数。

步骤E、读取下一个特征值，转入步骤B。

步骤F、退出重新入队列流程。

短时能量低声队列特征值重新入队列的流程如下：

步骤a、将短时能量低声队列中的特征值由大到小排序。

步骤c、将队列中的第一个特征值分别与短时能量高声队列均值和短时能量低声队列均值进行比较，如果更接近短时能量高声队列均值，则转入步骤d，否则，则转入步骤f。

步骤d、将特征值插入短时能量高声队列，同时调整短时能量高声队列和短时能量低声队列的参数，即调整均值和特征值个数。

步骤e、读取下一个特征值，转入步骤b。

步骤f、退出重新入队列流程。

计算每个高声队列或低声队列的特征值个数在整个高声队列或低声队列特征值个数中所占的比率。

根据高声队列或低声队列特征值所占整个高声队列或低声队列特征值的比率，计算整个高声队列权值和低声队列权值。将每个高声队列的特征值比率与对应的队列特征值均值乘积之和作为整个高声队列权值，将每个低声队列特征值的比率与对应的队列特征值均值乘积之和作为整个低声队列权值。

以整个高声队列和低声队列的队列权值为基础，设置声音精彩度阈值，表示不同的声音精彩度。为了保证特征值阈值不超过特征值区间，将级别系数作为特征值阈值参数，级别系数小于一。例如，可以将声音精彩度划分为四级，第一级对应的级别系数为0.5，则第一级特征值阈值为整个高声队列权值与整个低声队列权值之和乘以0.5；第二级对应的级别系数为0.6，则第二级特征值阈值为整个高声队列权值与整个低声队列权值之和乘以0.6；第三级对应的级别系数为0.7，则第三级特征值阈值为整个高声队列权值与整个低声队列权值之和乘以0.7；第四级对应的级别系数为0.8，则第四级特征值阈值为整个高声队列权值与整个低声队列权值之和乘以0.8。级别系数低于0.5定义为不精彩，级别系数大于0.8时，视频摘要长度过短，包含的精彩镜头过少。也可以根据不同的视频文件具体场景，选择其他级别系数。

利用采样点处的音频特征与声音精彩度阈值进行比较，获得满足相应的声音精彩度的视频段。利用采样点处的特征值与声音精彩度阈值进行比较，如果特征值大于相应的阈值，则满足相应的声音精彩度级别。此处，采样点的特征值可以是采样点处高声队列的特征值均值，也可以是高声队列特征值均值和低声队列特征值均值之和的一半。

声音精彩度的阈值可以根据观众的需求设定，从而可以满足观众快速可调的精彩镜头提取要求，识别出各种精彩镜头，例如球星的精彩运球或过人等，提高了视频摘要生成的灵活性和可靠性。

步骤三、将满足声音精彩度的关联镜头组聚合成视频片断。

关联镜头组可以为以长镜头为开始镜头，下一个长镜头的前一个镜头为结束镜头的镜头组。

找出符合声音精彩度的镜头关联组。

将满足声音精彩度的关联镜头组聚合成一个视频片断。

得到的视频片断组成视频摘要。

采用本实施例中生成视频摘要的方法，仅对视频文件的声音精彩度进行处理，减少特征种类，降低计算复杂度，提高视频摘要生成的效率和准确率。还可以避免运动特征对视频摘要的影响，进一步提高了视频摘要的准确率。

采用本实施例中生成视频摘要的方法，从视频文件的声音信息入手，对镜头进行精彩程度的量化，可以依据用户的不同需求，得出包含不同精彩镜头的视频摘要，提高了视频摘要的灵活性和可靠性。

实施例三，一种生成视频摘要的方法，参见图1，该方法包括：

101、接收视频文件；

102、对视频文件的视觉精彩度进行处理；

可以采用以下方式对视频文件的视觉精彩度进行处理：

可以采用以下方式对视频文件进行镜头边界检测：

根据切变和渐变边界，得到镜头集。

可以采用以下方式对镜头集进行镜头分类：

提取镜头集中代表镜头类型的关键帧；将关键帧分类。

可以采用以下方式提取镜头集中代表镜头类型的关键帧：

可以采用以下方式进行关键帧分类：

RGB转化到HSV空间的计算公式如下所示：

Max＝max(R，G，B) Min＝min(R，G，B)

H = \{\begin{matrix} (G - B) * 60 / (Max - Min), & if & Max = R, G &GreaterEqual; B \\ 360 + (G - B) * 60 / (Max - Min), & if & Max = R, G < B \\ 180 + (B - R) * 60 / (Max - Min), & if & Max = G \\ 240 + (R - G) * 60 / (Max - Min), & if & Max = B \end{matrix}

S＝(Max-Min)/Max

V＝Max

也可以采用以下方式对视频文件的视觉精彩度进行处理：

103、对视频文件的声音精彩度进行处理；

可以采用如下方式对视频文件的声音精彩度进行处理：

提取视频文件的音频特征；

计算音频特征的权值；

可以采用如下方式提取视频文件的音频特征：

其中，平均短时能量(S_TE)是指在一个音频帧内，样本信号所积聚的平均能量，反映了声音信号振幅或能量随着时间的变化规律。

将音频特征入队，包括将声音平均短时能量特征值入短时能量高声队列和短时能量低声队列，以及将声音平均过零率特征值入过零率高声队列和过零率低声队列，每种特征值入队的流程相同，下面仅以声音平均短时能量特征值入队为例进行说明，参见图2，入队的流程包括：

201、初始化短时能量高声队列和短时能量低声队列。k个声音平均短时能量特征值的头两个中较高的值入队短时能量高声队列，较低的值入队短时能量低声队列。同时，将短时能量高声队列的均值aveH初始化为入队第一个值，将短时能量低声队列的均值aveL初始化为入队第一个值。特征值个数均初始化为一。

202、判断是否越界，即判断是否正在操作第k个特征值，如果是，则退出入队流程；如果不是，则转入步骤203。

203、读取下一个特征值i。

204、计算特征值i与短时能量高声队列均值的差m＝aveH-i，计算特征值i与短时能量低声队列均值的差n＝i-aveL。

205、判断m是否小于n，如果是，则转入步骤206，如果不是，则转入步骤207。

206、特征值i插入高声队列，并修改队列参数，将原短时能量高声队列均值与特征值i的平均值作为新短时能量高声队列均值，将原特征值个数加一；转入步骤208。

207、特征值i插入低声队列，并修改队列参数，将原短时能量低声队列均值与特征值i的平均值作为新短时能量低声队列均值，将原特征值个数加一；转入步骤208。

208、判断特征值i是否小于原短时能量高声队列均值或原短时能量低声队列均值，如果是，则转入步骤209；否则，转入步骤210。

209、短时能量低声队列特征值重新入队列，转入步骤202。

210、短时能量高声队列特征值重新入队列，转入步骤202。

其中，参见图3，短时能量高声队列特征值重新入队列的流程如下：

301、将短时能量高声队列中的特征值由小到大排序。

302、判断队列是否越界，即是否超过该队列长度，如果是，则转入步骤306，如果否，则转入步骤303。

303、将队列中的第一个特征值分别与短时能量高声队列均值和短时能量低声队列均值进行比较，如果更接近短时能量低声队列均值，则转入步骤304，否则，则转入步骤306。

304、将特征值插入短时能量低声队列，同时调整短时能量高声队列和短时能量低声队列的参数，即调整均值和特征值个数。

305、读取下一个特征值，转入步骤302。

306、退出重新入队列流程。

参见图4，短时能量低声队列特征值重新入队列的流程如下：

401、将短时能量低声队列中的特征值由大到小排序。

402、判断队列是否越界，即是否超过该队列长度，如果是，则转入步骤406，如果否，则转入步骤403。

403、将队列中的第一个特征值分别与短时能量高声队列均值和短时能量低声队列均值进行比较，如果更接近短时能量高声队列均值，则转入步骤404，否则，则转入步骤406。

404、将特征值插入短时能量高声队列，同时调整短时能量高声队列和短时能量低声队列的参数，即调整均值和特征值个数。

405、读取下一个特征值，转入步骤402.

406、退出重新入队列流程。

以整个高声队列和低声队列的队列权值为基础，设置声音精彩度阈值，表示不同的声音精彩度。为了保证特征值阈值不超过特征值区间，将级别系数作为特征值阈值参数，级别系数小于一。例如，可以将声音精彩度划分为四级，第一级对应的级别系数为0.5，则第一级特征值阈值为整个高声队列权值与整个低声队列权值之和乘以0.5；第二级对应的级别系数为0.6，则第二级特征值阈值为整个高声队列权值与整个低声队列权值之和乘以0.6；第三级对应的级别系数为0.7，则第三级特征值阈值为整个高声队列权值与整个低声队列权值之和乘以0.7；第四级对应的级别系数为0.8，则第四级特征值阈值为整个高声队列权值与整个低声队列权值之和乘以0.8。级别系数低于0.5定义为不精彩，级别系数大于0.8时，视频摘要长度过段，包含的精彩镜头过少。也可以根据不同的视频文件具体场景，选择其他级别系数。

104、将满足视觉精彩度和声音精彩度的关联镜头组聚合成视频片断。

将满足视觉精彩度的关联镜头组聚合成一个视频片断。

得到的视频片断组成视频摘要。

在镜头关联组中，找出符合声音精彩度的镜头关联组。

在符合视觉精彩度的镜头关联组中，找出符合声音精彩度的镜头关联组。

将同时满足视觉精彩度和声音精彩度的关联镜头组聚合成一个视频片断。

得到的视频片断组成视频摘要。

采用本实施例中生成视频摘要的方法，仅对视频文件的视觉精彩度和声音精彩度两种特征进行处理，减少特征种类，降低计算复杂度，提高视频摘要生成的效率和准确率。还可以避免运动特征对视频摘要的影响，进一步提高了视频摘要的准确率。

采用本实施例中生成视频摘要的方法，从视频文件的声音信息和视觉信息入手，对镜头进行精彩程度的量化，可以依据用户的不同需求，得出包含不同精彩镜头的视频摘要，提高了视频摘要的灵活性和可靠性。

实施例四，将实施例三中生成视频摘要的方法应用到足球视频中，实验的视频数据来自2006年德国世界杯1/4决赛中意大利对阵乌克兰的比赛。

观众可以选择声音精彩度级别为三，视觉精彩度级别为一，对应的视觉精彩度阈值为四，提取到四组关联镜头组，参见图5，第一组501为射门事件，第二组502为犯规事件，第三组503为进球事件，第四组504为进攻未遂事件。其中，第一组的视觉精彩度为七，第二组的视觉精彩度为九，第三组的视觉精彩度为七，第四组的视觉精彩度为五，各关联镜头组的视觉精彩度均大于第一级视觉精彩度阈值四。

如果选择声音精彩度级别为三，视觉精彩度级别为三，对应的视觉精彩度阈值为七，则第四组管理镜头组不能提取出来，即只能提取射门镜头、犯规镜头和进球镜头，不能提取出进攻未遂镜头。

实施例一、一种生成视频摘要的装置，该装置包括：

接收单元，用于接收视频文件；

视觉单元，用于对视频文件的视觉精彩度进行处理；

其中，视觉单元可以包括：

检测子单元，用于将视频文件进行镜头边界检测，得到镜头集；

分类子单元，用于对镜头集进行镜头分类；

关联子单元，用于对已经分类的镜头集进行聚合，得到关联镜头组；

计算子单元，用于计算各关联镜头组的权值之和。

检测子单元可以包括：

第一模块，用于计算视频文件两帧之间的主色比率绝对差和颜色直方差；

第二模块，用于通过主色比率绝对差和颜色直方差的多个阈值检测镜头的切变和渐变边界。

检测子单元还可以包括：用于根据切变和渐变边界得到所述镜头集的模块。

分类子单元可以包括：

第三模块，用于提取镜头集中代表镜头类型的关键帧；

第四模块，用于将关键帧分类。

关联子单元可以包括：

第五模块，用于根据被标识为长镜头的关键帧，查找对应的长镜头；

第六模块，用于生成以长镜头为开始镜头，下一个长镜头的前一个镜头为结束镜头的关联镜头组。

实施例二，一种生成视频摘要的装置，该装置包括：

接收单元，用于接收视频文件；

声音单元，用于对视频文件的声音精彩度进行处理；

其中声音单元可以包括：

特征子单元，用于提取视频文件的音频特征；

权值子单元，用于计算音频特征的权值；

区间子单元，用于根据音频特征的权值设置声音精彩度阈值，并比较音频特征与声音精彩度阈值，获得相应声音精彩度的视频段。

特征子单元可以包括：

第七模块，用于对视频文件进行采样；

第八模块，用于计算每个采样点数据的声音平均短时能量特征值和声音平均过零率特征值。

聚合单元可以包括：

第一子单元，用于生成以长镜头为开始镜头，下一个长镜头的前一个镜头为结束镜头的镜头组作为关联镜头组；

第二子单元，用于选择满足声音精彩度的关联镜头组，得到选定关联镜头组；

第三子单元，用于将选定关联镜头组聚合成视频片断。

实施例三，一种生成视频摘要的装置，参见图6，该装置包括：

接收单元601，用于接收视频文件；

视觉单元602，用于对视频文件的视觉精彩度进行处理；

声音单元603，用于对视频文件的声音精彩度进行处理；

聚合单元604，用于将满足视觉精彩度和声音精彩度的关联镜头组聚合成视频片断。

其中，视觉单元可以包括：

分类子单元，用于对镜头集进行镜头分类；

计算子单元，用于计算各关联镜头组的权值之和。

检测子单元可以包括：

检测子单元还可以包括用于根据切变和渐变边界得到镜头集的模块。

分类子单元可以包括：

第三模块，用于提取镜头集中代表镜头类型的关键帧；

第四模块，用于将关键帧分类。

其中，第三模块可以包括第一子模块，该第一子模块用于取每个镜头的中间帧作为关键帧，一个镜头内的视频帧数目为N，当N为奇数时，取第(N±1)/2帧作为该镜头的关键帧；当N为偶数时，取第N/2帧作为该镜头的关键帧。

第四模块可以包括

第二子模块，用于将关键帧由红、蓝、绿RGB三基色空间转换到色调、饱和度、亮度HSV空间；

第三子模块，用于将每个视频帧分成若干区域；

第四子模块，用于根据各区域的主色覆盖率将各区域划分为不同类别；

第五子模块，用于为不同类别的区域分配不同的权值；

第六子模块，用于根据权值将关键帧划分为以下类别：长镜头、半镜头、3/4镜头、球门镜头、特写镜头、中镜头、短镜头和其他镜头。

第三子模块可以包括用于将每个视频帧分为十六个区域，其中长宽各均分四等分，每个区域之间没有交集的模块。

第四子模块可以包括用于将各区域划分为：80％以上绿色覆盖区、50％至80％绿色覆盖区、20％至50％绿色覆盖区、20％以下绿色覆盖区的模块。

第五子模块可以包括用于分配80％以上绿色覆盖区权值为100，50％至80％绿色覆盖区权值为10，20％至50％绿色覆盖区权值为1，20％以下绿色覆盖区权值为0的模块。

该生成视频摘要的装置还可以包括：

孤点单元，用于当视频帧出现孤点时，将孤点的主色覆盖率设置为周围区域主色覆盖率的均值，孤点的周围区域主色覆盖率在相同范围内，孤点的主色覆盖率不在周围区域主色覆盖率的范围内。

关联子单元可以包括：

声音单元可以包括：

特征子单元，用于提取视频文件的音频特征；

权值子单元，用于计算音频特征的权值；

区间子单元，用于根据音频特征的权值设置声音精彩度阈值，并比较所述音频特征与所述声音精彩度阈值，获得相应声音精彩度的视频段。

特征子单元可以包括：

第七模块，用于对视频文件进行采样；

权值子单元可以包括：

第九模块，用于根据声音平均短时能量特征值或声音平均过零率特征值的均值和特征值的个数，计算音频特征的权值。

第九模块可以包括：

第七子模块，用于计算声音平均短时能量特征值或声音平均过零率特征值的均值；

第八子模块，用于将比均值大的所述声音平均短时能量特征值或声音平均过零率特征值作为高声特征值，将比均值小的所述声音平均短时能量特征值或声音平均过零率特征值作为低声特征值；

第九子模块，用于计算高声特征值或低声特征值的比率；

第十子模块，用于根据高声特征值或低声特征值的比率，计算高声或低声的权值。

区间子单元可以包括：

第十一子模块，用于计算高声与低声的权值之和；

第十二子模块，用于将高声与低声的权值之和与特征值阈值参数相乘，得到对应的声音精彩度阈值，特征值阈值参数小于一。

区间子单元还可以包括：

第十三子模块，用于比较采样点处的特征值与声音精彩度阈值。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1、一种生成视频摘要的方法，其特征在于，该方法包括：

接收视频文件；

对所述视频文件的视觉精彩度进行处理；

将满足视觉精彩度的关联镜头组聚合成视频片断。

2、根据权利要求1所述的方法，其特征在于，所述对所述视频文件的视觉精彩度进行处理具体包括：

将所述视频文件进行镜头边界检测，得到镜头集；

对所述镜头集进行镜头分类；

对已经分类的镜头集进行聚合，得到关联镜头组；

计算各关联镜头组的权值之和。

3、根据权利要求2所述的方法，其特征在于，所述将所述视频文件进行镜头边界检测具体包括：

计算视频文件两帧之间的主色比率绝对差和颜色直方差；

通过所述主色比率绝对差和颜色直方差的多个阈值检测镜头的切变和渐变边界。

4、根据权利要求3所述的方法，其特征在于，所述得到镜头集具体包括：

根据所述切变和渐变边界，得到所述镜头集。

5、根据权利要求2所述的方法，其特征在于，所述对所述镜头集进行镜头分类具体包括：

提取所述镜头集中代表镜头类型的关键帧；

将所述关键帧分类。

6、根据权利要求5所述的方法，其特征在于，所述提取所述镜头集中代表镜头类型的关键帧具体包括：

取每个镜头的中间帧作为关键帧，一个镜头内的视频帧数目为N，当N为奇数时，取第(N±1)/2帧作为该镜头的关键帧；当N为偶数时，取第N/2帧作为该镜头的关键帧。

7、根据权利要求5所述的方法，其特征在于，所述视频文件为足球视频文件。

8、根据权利要求7所述的方法，其特征在于，所述将所述关键帧分类具体包括：

将所述关键帧由红、蓝、绿RGB三基色空间转换到色调、饱和度、亮度HSV空间；

将每个视频帧分成若干区域；

根据所述各区域的主色覆盖率将所述各区域划分为不同类别；

为不同类别的区域分配不同的权值；

根据所述权值将关键帧划分为以下类别：长镜头、半镜头、3/4镜头、球门镜头、特写镜头、中镜头、短镜头和其他镜头。

9、根据权利要求8所述的方法，其特征在于，所述将每个视频帧分成若干区域具体包括：

将每个视频帧分为十六个区域，其中长宽各均分四等分，每个区域之间没有交集。

10、根据权利要求9所述的方法，其特征在于，所述根据所述各区域的主色覆盖率将所述各区域划分为不同类别具体包括：

将所述各区域划分为：80％以上绿色覆盖区、50％至80％绿色覆盖区、20％至50％绿色覆盖区、20％以下绿色覆盖区。

11、根据权利要求10所述的方法，其特征在于，所述为不同类别的区域分配不同的权值具体包括：

分配80％以上绿色覆盖区权值为100，50％至80％绿色覆盖区权值为10，20％至50％绿色覆盖区权值为1，20％以下绿色覆盖区权值为0。

12、根据权利要求8所述的方法，其特征在于，该方法还包括：

当视频帧出现孤点时，将所述孤点的主色覆盖率设置为周围区域主色覆盖率的均值，所述孤点的周围区域主色覆盖率在相同范围内，所述孤点的主色覆盖率不在周围区域主色覆盖率的范围内。

13、根据权利要求8所述的方法，其特征在于，所述对已经分类的镜头集进行聚合，得到关联镜头组具体包括：

根据被标识为长镜头的关键帧，查找对应的长镜头；

生成以长镜头为开始镜头，下一个长镜头的前一个镜头为结束镜头的关联镜头组。

14、一种生成视频摘要的方法，其特征在于，该方法包括：

接收视频文件；

对所述视频文件的声音精彩度进行处理；

将满足声音精彩度的关联镜头组聚合成视频片断。

15、根据权利要求14所述的方法，其特征在于，所述对所述视频文件的声音精彩度进行处理具体包括：

提取所述视频文件的音频特征；

计算所述音频特征的权值；

根据所述音频特征的权值设置声音精彩度阈值；

比较所述音频特征与所述声音精彩度阈值，获得相应声音精彩度的视频段。

16、根据权利要求15所述的方法，其特征在于，所述提取所述视频文件的音频特征具体包括：

对所述视频文件进行采样；

计算每个采样点数据的声音平均短时能量特征值和声音平均过零率特征值。

17、根据权利要求16所述的方法，其特征在于，所述计算所述音频特征的权值具体包括：

根据所述声音平均短时能量特征值或声音平均过零率特征值的均值和特征值的个数，计算所述音频特征的权值。

18、根据权利要求17所述的方法，其特征在于，所述根据所述声音平均短时能量特征值或声音平均过零率特征值的均值和特征值的个数，计算所述音频特征的权值具体包括：

计算所述声音平均短时能量特征值或声音平均过零率特征值的均值；

将比所述均值大的所述声音平均短时能量特征值或声音平均过零率特征值作为高声特征值，将比所述均值小的所述声音平均短时能量特征值或声音平均过零率特征值作为低声特征值；

计算所述高声特征值或低声特征值的比率；

根据所述高声特征值或低声特征值的比率，计算高声或低声的权值。

19、根据权利要求18所述的方法，其特征在于，所述根据所述音频特征的权值设置声音精彩度阈值具体包括：

计算所述高声与低声的权值之和；

将所述高声与低声的权值之和与特征值阈值参数相乘，得到对应的声音精彩度阈值，所述特征值阈值参数小于一。

20、根据权利要求19所述的方法，其特征在于，所述比较所述音频特征与所述声音精彩度阈值具体包括：

比较采样点处的特征值与所述声音精彩度阈值。

21、根据权利要求14所述的方法，其特征在于，所述关联镜头组以长镜头为开始镜头，下一个长镜头的前一个镜头为结束镜头。

22、根据权利要求14所述的方法，其特征在于，所述视频文件为足球视频文件。

23、一种生成视频摘要的方法，其特征在于，该方法包括：

接收视频文件；

对所述视频文件的视觉精彩度进行处理；

对所述视频文件的声音精彩度进行处理；

24、根据权利要求23所述的方法，其特征在于，所述对所述视频文件的视觉精彩度进行处理具体包括：

将所述视频文件进行镜头边界检测，得到镜头集；

对所述镜头集进行镜头分类；

对已经分类的镜头集进行聚合，得到关联镜头组；

计算各关联镜头组的权值之和。

25、根据权利要求24所述的方法，其特征在于，所述将所述视频文件进行镜头边界检测具体包括：

计算视频文件两帧之间的主色比率绝对差和颜色直方差；

26、根据权利要求25所述的方法，其特征在于，所述得到镜头集具体包括：

根据所述切变和渐变边界，得到所述镜头集。

27、根据权利要求24所述的方法，其特征在于，所述对所述镜头集进行镜头分类具体包括：

提取所述镜头集中代表镜头类型的关键帧；

将所述关键帧分类。

28、根据权利要求27所述的方法，其特征在于，所述提取所述镜头集中代表镜头类型的关键帧具体包括：

29、根据权利要求27所述的方法，其特征在于，所述视频文件为足球视频文件。

30、根据权利要求29所述的方法，其特征在于，所述将所述关键帧分类具体包括：

将每个视频帧分成若干区域；

为不同类别的区域分配不同的权值；

31、根据权利要求30所述的方法，其特征在于，所述将每个视频帧分成若干区域具体包括：

32、根据权利要求31所述的方法，其特征在于，所述根据所述各区域的主色覆盖率将所述各区域划分为不同类别具体包括：

33、根据权利要求32所述的方法，其特征在于，所述为不同类别的区域分配不同的权值具体包括：

34、根据权利要求30所述的方法，其特征在于，该方法还包括：

35、根据权利要求30所述的方法，其特征在于，所述对已经分类的镜头集进行聚合，得到关联镜头组具体包括：

根据被标识为长镜头的关键帧，查找对应的长镜头；

36、根据权利要求23所述的方法，其特征在于，所述对所述视频文件的声音精彩度进行处理具体包括：

提取所述视频文件的音频特征；

计算所述音频特征的权值；

根据所述音频特征的权值设置声音精彩度阈值；

37、根据权利要求36所述的方法，其特征在于，所述提取所述视频文件的音频特征具体包括：

对所述视频文件进行采样；

38、根据权利要求37所述的方法，其特征在于，所述计算所述音频特征的权值具体包括：

39、根据权利要求38所述的方法，其特征在于，所述根据所述声音平均短时能量特征值或声音平均过零率特征值的均值和特征值的个数，计算所述音频特征的权值具体包括：

计算所述高声特征值或低声特征值的比率；

40、根据权利要求39所述的方法，其特征在于，所述根据所述音频特征的权值设置声音精彩度阈值具体包括：

计算所述高声与低声的权值之和；

41、根据权利要求40所述的方法，其特征在于，所述比较所述音频特征与所述声音精彩度阈值具体包括：

比较采样点处的特征值与所述声音精彩度阈值。

42、一种生成视频摘要的装置，其特征在于，该装置包括：

接收单元，用于接收视频文件；

视觉单元，用于对所述视频文件的视觉精彩度进行处理；

43、根据权利要求42所述的装置，其特征在于，所述视觉单元包括：

检测子单元，用于将所述视频文件进行镜头边界检测，得到镜头集；

分类子单元，用于对所述镜头集进行镜头分类；

计算子单元，用于计算各关联镜头组的权值之和。

44、根据权利要求43所述的装置，其特征在于，所述检测子单元包括：

第二模块，用于通过所述主色比率绝对差和颜色直方差的多个阈值检测镜头的切变和渐变边界。

45、根据权利要求44所述的装置，其特征在于，所述检测子单元还包括用于根据所述切变和渐变边界得到所述镜头集的模块。

46、根据权利要求43所述的装置，其特征在于，所述分类子单元包括：

第三模块，用于提取所述镜头集中代表镜头类型的关键帧；

第四模块，用于将所述关键帧分类。

47、根据权利要求43所述的装置，其特征在于，所述关联子单元包括：

48、一种生成视频摘要的装置，其特征在于，该装置包括：

接收单元，用于接收视频文件；

声音单元，用于对所述视频文件的声音精彩度进行处理；

49、根据权利要求48所述的装置，其特征在于，所述声音单元包括：

特征子单元，用于提取所述视频文件的音频特征；

权值子单元，用于计算所述音频特征的权值；

区间子单元，用于根据所述音频特征的权值设置声音精彩度阈值，并比较所述音频特征与所述声音精彩度阈值，获得相应声音精彩度的视频段。

50、根据权利要求49所述的装置，其特征在于，所述特征子单元包括：

第七模块，用于对所述视频文件进行采样；

51、根据权利要求48所述的装置，其特征在于，所述聚合单元包括：

第三子单元，用于将所述选定关联镜头组聚合成视频片断。

52、一种生成视频摘要的装置，其特征在于，该装置包括：

接收单元，用于接收视频文件；

视觉单元，用于对所述视频文件的视觉精彩度进行处理；

声音单元，用于对所述视频文件的声音精彩度进行处理；

53、根据权利要求52所述的装置，其特征在于，所述视觉单元包括：

分类子单元，用于对所述镜头集进行镜头分类；

计算子单元，用于计算各关联镜头组的权值之和。

54、根据权利要求53所述的装置，其特征在于，所述检测子单元包括：

55、根据权利要求54所述的装置，其特征在于，所述检测子单元还包括用于根据所述切变和渐变边界得到所述镜头集的模块。

56、根据权利要求53所述的装置，其特征在于，所述分类子单元包括：

第三模块，用于提取所述镜头集中代表镜头类型的关键帧；

第四模块，用于将所述关键帧分类。

57、根据权利要求53所述的装置，其特征在于，所述关联子单元包括：

58、根据权利要求52所述的装置，其特征在于，所述声音单元包括：

特征子单元，用于提取所述视频文件的音频特征；

权值子单元，用于计算所述音频特征的权值；

59、根据权利要求58所述的装置，其特征在于，所述特征子单元包括：

第七模块，用于对所述视频文件进行采样；