CN109213895A

CN109213895A - 一种视频摘要的生成方法及装置

Info

Publication number: CN109213895A
Application number: CN201710541793.1A
Authority: CN
Inventors: 葛雷鸣
Original assignee: 1Verge Internet Technology Beijing Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2019-01-15
Also published as: TWI712316B; TW201907736A; WO2019007020A1

Abstract

本申请实施方式公开了一种视频摘要的生成方法及装置，其中，所述视频具备文字描述信息，所述方法包括：从所述视频中提取多个场景切换帧，并为所述场景切换帧设置场景标签，其中，相邻两个场景切换帧之间的相似度满足指定条件；从所述文字描述信息中提取所述视频对应的主题标签；根据所述场景切换帧的场景标签与所述主题标签之间的关联性，从所述多个场景切换帧中筛选出目标帧，并基于所述目标帧生成所述视频的视频摘要。本申请提供的技术方案，能够在提高效率的同时，精确地表征视频的主题。

Description

一种视频摘要的生成方法及装置

技术领域

本申请涉及互联网技术领域，特别涉及一种视频摘要的生成方法及装置。

背景技术

当前，为了让用户在短时间内获知视频的内容，视频播放平台通常会为上传的视频制作对应的视频摘要。所述视频摘要可以是一个时长较短的视频，在所述视频摘要中可以包含原视频中的一部分场景。这样，用户在观看所述视频摘要时，可以快速地了解原视频的大概内容。

目前，在制作视频摘要时，一方面可以通过人工剪辑的方式，先由视频播放平台的工作人员观看整个视频，然后将其中比较关键的片段剪辑出来，构成该视频的视频摘要。通过这种方式制作的视频摘要能够比较准确地表征视频中包含的信息，但是随着视频数量的快速增长，这种制作视频摘要的方式会耗费相当多的人力，而且制作视频摘要的速度也相当慢。

鉴于此，为了节省人力并提高视频摘要的制作效率，当前通常是通过图像识别的技术来制作视频摘要。具体地，可以按照固定的时间间隔对上传的视频进行采样，从而提取出视频中的多帧图像。然后可以依次计算相邻两帧图像之间的相似度，并且可以保留相似度较低的两帧图像，从而保证保留下来的图像帧能够展示多个场景的内容。这样，可以将最终保留的图像帧构成该视频的视频摘要。

现有技术中通过图像识别来制作视频摘要的方法，尽管能够提高制作的效率，但是通过固定采样和比对相似度的方式来挑选视频摘要中的图像帧，很容易漏掉视频中的关键场景，从而导致生成的视频摘要无法准确地反映视频的主题。

发明内容

本申请实施方式的目的是提供一种视频摘要的生成方法及装置，能够在提高效率的同时，精确地表征视频的主题。

为实现上述目的，本申请实施方式提供一种视频摘要的生成方法，所述视频具备文字描述信息，所述方法包括：从所述视频中提取多个场景切换帧，并为所述场景切换帧设置场景标签，其中，相邻两个场景切换帧之间的相似度满足指定条件；从所述文字描述信息中提取所述视频对应的主题标签；根据所述场景切换帧的场景标签与所述主题标签之间的关联性，从所述多个场景切换帧中筛选出目标帧，并基于所述目标帧生成所述视频的视频摘要。

为实现上述目的，本申请实施方式还提供一种视频摘要的生成装置，所述视频具备文字描述信息，所述装置包括：场景切换帧提取单元，用于从所述视频中提取多个场景切换帧，并为所述场景切换帧设置场景标签，其中，相邻两个场景切换帧之间的相似度满足指定条件；主题标签提取单元，用于从所述文字描述信息中提取所述视频对应的主题标签；视频摘要生成单元，用于根据所述场景切换帧的场景标签与所述主题标签之间的关联性，从所述多个场景切换帧中筛选出目标帧，并基于所述目标帧生成所述视频的视频摘要。

由上可见，本申请首先可以从视频中提取相似度满足指定条件的场景切换帧，并为场景切换帧设置对应的场景标签。然后可以结合该视频的文字描述信息，确定该视频的主题标签。该主题标签可以准确地表征该视频的主题。接着，通过确定场景标签与主题标签之间的关联性，从而可以从场景切换帧中保留与主题关联性较紧密的目标帧。这样，基于所述目标帧生成的视频摘要从而能够准确地表征视频的主题内容。

附图说明

为了更清楚地说明本申请实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施方式中视频摘要的生成方法流程图；

图2为本申请实施方式中目标帧和场景切换帧的示意图；

图3为本申请实施方式中场景切换帧的提取示意图；

图4为本申请实施方式中场景标签的提取示意图；

图5为本申请实施方式中视频摘要的生成装置的功能模块图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都应当属于本申请保护的范围。

本申请提供一种视频摘要的生成方法，所述方法可以应用于具备数据处理功能的电子设备中。所述电子设备例如可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、具有网络访问功能的电视机等。所述方法还可以应用于在上述电子设备中运行的软件中。所述软件可以是具备视频制作功能或者视频播放功能的软件中。此外，所述方法还可以应用于视频播放网站的服务器中。所述视频播放网站例如可以是爱奇艺、搜狐视频、Acfun等。在本实施方式中并不具体限定所述服务器的数量。所述服务器可以为一个服务器，还可以为几个服务器，或者，若干服务器形成的服务器集群。

在本实施方式中，所述视频摘要可以基于视频生成。所述视频可以是用户本地的视频，也可以是用户上传至视频播放网站的视频。其中，所述视频通常可以具备文字描述信息。所述文字描述信息可以是所述视频的标题或者所述视频的简介。所述标题和所述简介可以是视频制作者或者视频上传者预先编辑的，还可以是对视频进行审核的工作人员添加的，本申请对比并不做限定。当然，在实际应用中，所述文字描述信息除了包括所述视频的标题和简介，还可以包括所述视频的文字标签或者从该视频的弹幕信息中提取的描述性短语。

请参阅图1和图2，本申请提供的视频摘要的生成方法可以包括以下步骤。

S1：从所述视频中提取多个场景切换帧，并为所述场景切换帧设置场景标签，其中，相邻两个场景切换帧之间的相似度满足指定条件。

在本实施方式中，所述视频可以是存储于本地的视频，也可以是存储于其它设备中的视频。这样，所述视频的获取方式可以包括按照指定路径，从本地加载所述视频或者根据其它设备提供的统一资源定位符(Uniform Resource Locator，URL)下载所述视频。

在本实施方式中，在获取到所述视频之后，可以对所述视频中的每一帧画面进行分析，以提取其中的多个场景切换帧。为了能够获取所述视频的各个场景对应的场景切换帧，在本实施方式中可以通过逐帧对比的方式进行提取。具体地，首先可以在所述视频中确定基准帧，并依次计算所述基准帧之后的各个帧与所述基准帧之间的相似度。

在本实施方式中，所述基准帧可以在一定范围内随机指定的一帧画面。例如，所述基准帧可以是在所述视频的开篇2分钟内随机选取的一帧画面。当然，为了不遗漏所述视频中的场景，可以将所述视频的第一帧作为所述基准帧。

在本实施方式中，当确定了所述基准帧之后，可以从所述基准帧开始，将所述基准帧之后的各帧画面依次与所述基准帧进行对比，以计算后续的各帧画面与所述基准帧之间的相似度。具体地，在计算各个帧与所述基准帧之间的相似度时，可以分别提取所述基准帧和当前帧的第一特征向量和第二特征向量。

在本实施方式中，所述第一特征向量和所述第二特征向量可以具备多种形式。其中，可以基于每帧画面中像素点的像素值构建该帧画面的特征向量。每帧画面通常都是由若干的像素点按照一定的顺序排列而成的，像素点对应各自的像素值，从而可以构成色彩斑斓的画面。所述像素值可以是处于指定区间内的数值。例如，所述像素值可以是0至255中的任意一个数值。数值的大小可以表示色彩的深浅。在本实施方式中，可以获取每帧画面中各个像素点的像素值，并通过获取的像素值构成该帧画面的特征向量。例如，对于具备9*9＝81个像素点的当前帧而言，可以依次获取其中像素点的像素值，然后根据从左向右从上至下的顺序，将获取的像素值依次排列，从而构成81维的向量。该81维的向量便可以作为所述当前帧的特征向量。

在本实施方式中，所述特征向量还可以是每帧画面的CNN(Convolutional NeuralNetwork，卷积神经网络)特征。具体地，可以将所述基准帧以及所述基准帧之后的各帧画面输入卷积神经网络中，然后该卷积神经网络便可以输出所述基准帧以及其它各帧画面对应的特征向量。

在本实施方式中，为了能够准确地表征所述基准帧和当前帧中所展示的内容，所述第一特征向量和所述第二特征向量还可以分别表示所述基准帧和所述当前帧的尺度不变特征。这样，即使改变图像的旋转角度、图像亮度或拍摄视角，提取出的第一特征向量和所述第二特征向量仍然能够很好地体现所述基准帧和当前帧中的内容。具体地，所述第一特征向量和所述第二特征向量可以是Sift(Scale-invariant feature transform，尺度不变特征转换)特征、surf特征(Speed Up Robust Feature，快速鲁棒性特征)或者颜色直方图特征等。

在本实施方式中，在确定了所述第一特征向量和所述第二特征向量之后，可以计算所述第一特征向量和所述第二特征向量之间的相似度。具体地，所述相似度在向量空间中可以表示为两个向量之间的距离。距离越近，表示两个向量越相似，因此相似度越高。距离越远，表示两个向量差别越大，因此相似度越低。因此，在计算所述基准帧和所述当前帧之间的相似度时，可以计算所述第一特征向量和所述第二特征向量之间的空间距离，并将所述空间距离的倒数作为所述基准帧与所述当前帧之间的相似度。这样，空间距离越小，其对应的相似度越大，表明所述基准帧和所述当前帧之间越相似。相反地，空间距离越大，其对应的相似度越小，表明所述基准帧和所述当前帧之间越不相似。

在本实施方式中，按照上述方式可以依次计算所述基准帧之后的各个帧与所述基准帧之间的相似度。相似度较高的两帧画面中所展示的内容也通常是比较相似的，而视频摘要的主旨是将视频中不同场景的内容向用户展示，因此，在本实施方式中，当所述基准帧与当前帧之间的相似度小于或者等于指定阈值时，可以将所述当前帧确定为一个场景切换帧。其中，所述指定阈值可以是预先设定的一个数值，该数值根据实际情况可以灵活地进行调整。例如，当根据该指定阈值筛选出的场景切换帧的数量过多时，可以适当减小该指定阈值的大小。又例如，当根据该指定阈值筛选出的场景切换帧的数量过少时，可以适当增大该指定阈值的大小。在本实施方式中，相似度小于或者等于指定阈值，可以表示两帧画面中的内容已经具备明显的不同，因此可以认为当前帧所展示的场景，与所述基准帧所展示的场景发生了改变。此时，所述当前帧便可以作为场景切换的一帧画面进行保留。

在本实施方式中，在将所述当前帧确定为一个场景切换帧时，可以继续确定后续的其它场景切换帧。具体地，从所述基准帧到所述当前帧，可以视为场景发生了一次改变，因此当前的场景便是所述当前帧所展示的内容。基于此，可以将所述当前帧作为新的基准帧，并依次计算所述新的基准帧之后的各个帧与所述新的基准帧之间的相似度，以根据计算的的所述相似度确定下一个场景切换帧。同样地，在确定下一个场景切换帧时，依然可以通过提取特征向量以及计算空间距离的方式确定出两帧画面之间的相似度，并且可以将确定出的相似度依然与所述指定阈值进行对比，从而确定出从新的基准帧之后场景再次发生变化的下一个场景切换帧。

请参阅图3，在本实施方式中，再确定出下一个场景切换帧之后，可以将该场景切换帧作为新的基准帧，继续进行后续场景切换帧的提取过程。这样，通过依次改变基准帧的方式，可以将所述视频中场景发生变化的各帧画面均提取出来，从而不会遗漏所述视频中所展示的场景，以保证视频摘要的完备性。在图3中，被斜线填充的矩形条可以作为场景切换帧，相邻两个场景切换帧之间的相似度都可以小于或者等于所述指定阈值。

在本实施方式中，通过上述方式提取出的场景切换帧中，任意相邻两个场景切换帧之间的相似度都会小于或者等于所述指定阈值，因此，相邻两个场景切换帧之间的相似度满足指定条件便可以指相邻两个场景切换帧之间的相似度小于或者等于所述指定阈值。

在本实施方式中，在提取了所述多个场景切换帧之后，可以为所述场景切换帧设置场景标签。所述场景标签可以是用于表征所述场景切换帧中所展示的内容的文字标签。例如，某一个场景切换帧中展示的是两个人在打斗，那么该场景切换帧对应的场景标签便可以是“武术”、“搏击”或者“功夫”等。

在本实施方式中，可以对场景切换帧中的内容进行识别，以确定场景切换帧对应的场景标签。具体地，可以提取所述场景切换帧的特征，其中，所述特征可以包括颜色特征、纹理特征以及形状特征中的至少一种。其中，所述颜色特征可以是基于不同的颜色空间进行提取的特征。所述颜色空间例如可以包括RGB(Red、Green、Blue，红、绿、蓝)空间、HSV(Hue、Saturation、Value，色调、饱和度、明度)空间、HIS(Hue、Saturation、Intensity，色调、饱和度、亮度)空间等。在颜色空间中，均可以具备多个颜色分量。例如，RGB空间中可以具备R分量、G分量以及B分量。针对不同的画面，颜色分量也会存在不同。因此，可以用所述颜色分量来表征场景切换帧的特征。

此外，所述纹理特征可以用于描述所述场景切换帧对应的材质。所述纹理特征通常可以通过灰度的分布来体现。所述纹理特征可以与图像频谱中的低频分量以及高频分量相对应。这样，场景切换帧中包含的图像的低频分量和高频分量便可以作为所述场景切换帧的特征。

在本实施方式中，所述形状特征可以包括基于边缘的形状特征以及基于区域的形状特征。具体地，可以利用傅里叶变换的边界来作为所述基于边缘的形状特征，还可以利用不变矩描述子来作为所述基于区域的形状特征。

请参阅图4，在本实施方式中，在提取出各个场景切换帧中的特征后，可以将提取的所述特征与特征样本库中的各个特征样本进行比对。所述特征样本库可以是基于图像识别的历史数据而总结归纳的一个样本集合。在所述特征样本库中，可以具备表征不同内容的特征样本。所述特征样本同样可以是上述的颜色特征、纹理特征以及形状特征中的至少一种。例如，所述特征样本库中，有表征踢足球的特征样本，有表征舞蹈的特征样本，还有表征搏斗的特征样本等。具体地，所述特征样本库中的所述特征样本均可以与文字标签相关联，所述文字标签可以用于描述所述特征样本所对应的展示内容。例如，表征踢足球的特征样本关联的文字标签可以是“踢足球”，表征舞蹈的特征样本的文字标签可以是“广场舞”。

在本实施方式中，提取的所述特征以及所述特征样本库中的特征样本均可以通过向量的形式进行表示。这样，将提取的所述特征与特征样本库中的各个特征样本进行比对可以指计算所述特征与各个特征样本之间的距离。距离越近，表明提取的所述特征与特征样本越相似。这样，可以确定所述特征样本库中与提取的所述特征最相似的目标特征样本。其中，所述最相似的目标特征样本与所述提取的特征样本之间计算出的距离可以是最小的。提取的特征与所述目标特征样本最相似，表明这两者展示的内容也最相似，因此，可以将所述目标特征样本关联的文字标签作为所述场景切换帧对应的场景标签，从而可以为各个场景切换帧设置相应的场景标签。

如图4所示，从场景切换帧中提取的特征与特征样本库中的各个特征样本之间的距离可以分别为0.8、0.5、0.95以及0.6，这样，距离为0.5的特征样本对应的文字标签就可以作为所述场景切换帧对应的场景标签。

S3：从所述文字描述信息中提取所述视频对应的主题标签。

在本实施方式中，所述文字描述信息可以比较精确地表明所述视频的主题。因此，可以从所述文字描述信息中提取所述视频对应的主题标签。具体地，视频播放网站可以针对大量的视频的文字描述信息进行归纳总结，筛选出可能作为视频主题的各个文字标签，并将筛选出的各个文字标签构成文字标签库。所述文字标签库中的内容可以不断进行更新。这样，在从所述文字描述信息中提取主题标签时，可以将所述文字描述信息与文字标签库中的各个文字标签进行匹配，并将匹配得到的文字标签作为所述视频的主题标签。例如，所述视频的文字描述信息为“外国小伙与中国大妈跳广场舞，惊呆众人！”那么将该文字描述信息与所述文字标签库中的各个文字标签进行匹配时，可以得到“广场舞”这个匹配结果。因此，“广场舞”便可以作为该视频的主题标签。

需要说明的是，由于视频的文字描述信息通常比较长，在与文字标签库中的文字标签进行匹配时，可能会匹配得到至少两个结果。例如，所述视频的文字描述信息为“外国小伙与中国大妈跳广场舞，惊呆众人！”，那么将该文字描述信息与所述文字标签库中的各个文字标签进行匹配时，可以得到“外国小伙”、“中国大妈”以及“广场舞”这三个匹配结果。一方面，可以将匹配到的这三个匹配结果同时作为所述视频的主题标签。另一方面，当所述视频的主题标签的数量有限制时，可以从匹配到的多个结果中筛选出合适的主题标签。具体地，在本实施方式中，所述文字标签库中的各个文字标签可以与统计次数相关联，其中，所述统计次数可以用于表征所述文字标签作为主题标签的总次数。所述统计次数越大，表明对应的文字标签作为视频的主题标签的总次数越多，该文字标签作为主题标签的可信度也就越高。因此，当匹配得到的文字标签的数量为至少两个时，可以按照统计次数从大到小的顺序对匹配得到的文字标签进行排序，并将排序结果中靠前的指定数量个文字标签作为所述视频的主题标签。其中，所述指定数量可以是预先限定的所述视频的主题标签的数量。例如，所述视频的主题标签的数量限制为最多2个，那么可以根据统计次数将“外国小伙”、“中国大妈”以及“广场舞”这三个匹配结果进行排序，并最终将排名前2的“中国大妈”和“广场舞”作为该视频的主题标签。

S5：根据所述场景切换帧的场景标签与所述主题标签之间的关联性，从所述多个场景切换帧中筛选出目标帧，并基于所述目标帧生成所述视频的视频摘要。

在本实施方式中，考虑到视频中出现的场景会较多，但是场景对应的场景切换帧并非都是与视频的主题具有紧密联系的。为了使得生成的视频摘要能够准确地反映视频的主题，可以根据各个所述场景切换帧的场景标签与所述主题标签之间的关联性，从所述多个场景切换帧中筛选出目标帧。

在本实施方式中，场景标签与主题标签之间的关联性可以指场景标签和主题标签之间的相似程度。场景标签与主题标签越相似，则表明场景切换帧所展示的内容与视频的主题越相关。具体地，确定场景标签与主题标签之间关联性的方式可以包括计算各个所述场景切换帧的场景标签与所述主题标签之间的相似度。在实际应用中，所述场景标签与所述主题标签均可以由词汇构成，在计算这两者之间的相似度时，可以通过词向量(wordvector)的方式来分别表示所述场景标签和所述主题标签。这样，可以通过两个词向量之间的空间距离来表示所述场景标签和所述主题标签之间的相似度。两个词向量之间的空间距离越近，表明所述场景标签和所述主题标签之间的相似度越高；相反地，两个词向量之间的空间距离越远，表明所述场景标签和所述主题标签之间的相似度越低。这样，在实际应用场景中，可以将两个词向量之间的空间距离的倒数，作为所述场景标签和所述主题标签之间的相似度。

在本实施方式中，在计算出所述场景标签和所述主题标签之间的相似度之后，可以将计算的所述相似度大于指定相似度阈值的场景切换帧确定为所述目标帧。其中，所述指定相似度阈值可以作为衡量场景切换帧与主题之间是否足够关联的门槛，当相似度大于所述指定相似度阈值时，可以表明当前的场景切换帧与视频的主题之间已经足够关联，场景切换帧所展示的内容能够准确地反映视频的主题，因此可以将该场景切换帧确定为所述目标帧。

在本实施方式中，从场景切换帧中筛选出的目标帧均与视频的主体具备比较紧密的联系，因此，可以基于所述目标帧生成所述视频的视频摘要。具体地，生成所述视频的视频摘要的方式可以将各个目标帧按照在视频中所处的先后顺序依次排列，从而构成所述视频的视频摘要。此外，考虑到视频摘要所展示的内容中前后帧之间并不需要保持内容的正常逻辑，因此可以将各个目标帧随机地进行编排，并将编排后的目标帧序列作为所述视频的视频摘要。

在本申请一个实施方式中，考虑到各个场景切换帧的场景标签通常是针对场景切换帧的整体内容进行设置的，因此场景标签无法准确地反映场景切换帧中的局部细节。为了进一步地提高目标帧与视频主题的关联性，在本实施方式中可以对场景切换帧中包含的目标对象进行识别，并在识别出的目标对象的基础上进行目标帧的筛选。具体地，在计算各个所述场景切换帧的场景标签与所述主题标签之间的相似度之后，可以根据计算得到的所述相似度，为对应的场景切换帧设置权重系数。其中，场景标签与主题标签之间的相似度越高，为对应的场景切换帧设置的权重系数就越大。所述权重系数可以是处于0和1之间的数值。例如，当前视频的主题标签为“广场舞”，那么针对场景标签为“舞蹈”和“功夫”的两个场景切换帧而言，场景标签为“舞蹈”的场景切换帧设置的权重系数可以为0.8，而场景标签为“功夫”的场景切换帧设置的权重系数可以为0.4。

在本实施方式中，在为各个场景切换帧设置了权重系数之后，可以识别所述场景切换帧中包含的目标对象。具体地，在识别场景切换帧中包含的目标对象时，可以采用adaboost算法、R-CNN(Region-based Convolutional Neural Network，基于区域的卷积神经网络)算法或者SSD(Single Shot Detector，单目标检测)算法，来检测所述场景切换帧中所包含的目标对象。例如，对于场景标签为“舞蹈”的场景切换帧而言，可以通过R-CNN算法识别出该场景切换帧中包括“女人”、“音响”这两种目标对象。这样，在识别出各个场景切换帧中包含的目标对象之后，可以根据识别出的所述目标对象与所述主题标签之间的关联性，为所述场景切换帧设置关联值。具体地，所述主题标签可以与至少一个对象相关联。所述对象可以是与所述主题标签联系比较紧密的对象。与主题标签相关联的至少一个对象可以是通过对历史数据进行分析得到的。例如，主题标签为“海滩”时，其关联的至少一个对象可以包括“海水”、“沙滩”、“海鸥”、“泳装”、“遮阳伞”等。这样，可以将从所述场景切换帧中识别出的目标对象与所述至少一个对象进行对比，并统计在所述至少一个对象中出现的目标对象的数量。具体地，针对“海滩”这个主题标签，假设从场景切换帧中识别出的目标对象为“遮阳伞”、“汽车”、“沙滩”、“树木”以及“海水”，那么在将目标对象与所述至少一个对象进行对比时，可以确定在所述至少一个对象中出现的目标对象为“遮阳伞”、“沙滩”以及“海水”。也就是说，在所述至少一个对象中出现的目标对象的数量为3。在本实施方式中，可以将统计的所述数量与指定数值的乘积作为所述场景切换帧的关联值。所述指定数值可以是预先设置的数值，例如，所述指定数值可以是10，那么上述例子中所述场景切换帧的关联值可以为30。这样，在所述至少一个对象中出现的目标对象的数量越多，表明该场景切换帧中的局部细节与视频主题之间的关联也越紧密，对应的关联值也越高。

在本实施方式中，在确定目标帧时，可以基于场景切换帧的整体特征和局部特征来进行判断。具体地，可以计算各个所述场景切换帧的权重系数与关联值的乘积，并将所述乘积大于指定乘积阈值的场景切换帧确定为所述目标帧。利用乘积来作为判断的依据，从而可以综合了场景切换帧的整体特征和局部特征。所述指定乘积阈值可以是衡量场景切换帧是否为目标帧的门槛。所述指定乘积阈值在实际应用场景中可以灵活地进行调整。

在本申请一个实施方式中，考虑到有些场景中，可能会预先限制视频摘要中画面帧的总数量(或者是总时长)。在这种情况下，在确定目标帧时，还需要综合考虑预先限制的帧总数量。具体地，当各个所述场景切换帧的总数量大于或者等于所述指定的帧总数量时，表明能够从场景切换帧中提取出足够的帧数来构成视频摘要。在这种情况下爱，可以基于上述实施方式中计算出的各个场景切换帧对应的权重系数与关联值的乘积，按照乘积从大到小的顺序对各个所述场景切换帧进行排序。然后可以将排序结果中靠前的所述指定的帧总数量个场景切换帧确定为所述目标帧。举例来说明，当前限制了视频摘要中的帧总数量为1440帧，而当前从视频中提取的场景切换帧的数量为2000帧。这样，可以依次计算各个场景切换帧对应的权重系数和关联值的乘积，并且按照乘积进行从大到小的顺序排序之后，将排名前1440的场景切换帧作为所述目标帧，从而可以由1440帧目标帧构成符合要求的视频摘要。

在本实施方式中，当各个所述场景切换帧的总数量小于所述指定的帧总数量时，表明当前提取的所有的场景切换帧都不足以构成符合要求的视频摘要。在这种情况下，需要在提取出的场景切换帧之间插入原视频中一定数量的画面帧，从而达到视频摘要限定的帧总数量的要求。具体地，在插入原视频中的画面帧时，可以在场景跳转较大的两个场景切换帧之间进行，这样可以保持内容的连贯性。在本实施方式中，可以在相似度小于判定阈值的两个相邻的场景切换帧之间，插入所述视频中的至少一个视频帧。其中，相似度小于判定阈值的两个相邻的场景切换帧可以被视为内容关联性较弱的两个场景切换帧。在本实施方式中，在关联性较弱的两个场景切换帧之间可以逐帧插入原视频中的画面帧，直至插入所述至少一个视频帧之后的场景切换帧的总数量等于所述指定的帧总数量。这样，原有的场景切换帧和插入的画面帧的整体都可以作为所述目标帧，从而构成所述视频的视频摘要。

在本申请一个实施方式中，从视频的文字描述信息中提取的主题标签的数量可能为至少两个，在这种情况下，可以针对所述场景切换帧，计算所述场景切换帧的场景标签与各个所述主题标签之间的相似度。例如，当前的主题标签为标签1和标签2，那么可以分别计算当前场景切换帧与标签1以及标签2之间的相似度，从而可以得到所述当前场景切换帧对应的第一相似度和第二相似度。在计算出场景切换帧对应的各个相似度之后，可以将针对所述场景切换帧计算得出的各个相似度进行累加，以得到所述场景切换帧对应的累计相似度。例如，可以将上述的第一相似度和第二相似度之和作为所述当前场景切换帧对应的累计相似度。在本实施方式中，在计算出各个场景切换帧对应的累计相似度之后，同样可以将累计相似度与指定相似度阈值进行比对，并将累计相似度大于指定相似度阈值的场景切换帧确定为所述目标帧。

请参阅图5，本申请还提供一种视频摘要的生成装置，所述视频具备文字描述信息，所述装置包括：

场景切换帧提取单元100，用于从所述视频中提取多个场景切换帧，并为所述场景切换帧设置场景标签，其中，相邻两个场景切换帧之间的相似度满足指定条件；

主题标签提取单元200，用于从所述文字描述信息中提取所述视频对应的主题标签；

视频摘要生成单元300，用于根据所述场景切换帧的场景标签与所述主题标签之间的关联性，从所述多个场景切换帧中筛选出目标帧，并基于所述目标帧生成所述视频的视频摘要。

在本实施方式中，所述场景切换帧提取单元100包括：

相似度计算模块，用于在所述视频中确定基准帧，并依次计算所述基准帧之后的帧与所述基准帧之间的相似度；

场景切换帧确定模块，用于当所述基准帧与当前帧之间的相似度小于或者等于指定阈值时，将所述当前帧确定为一个场景切换帧；

循环执行模块，用于将所述当前帧作为新的基准帧，并依次计算所述新的基准帧之后的帧与所述新的基准帧之间的相似度，以根据计算的的所述相似度确定下一个场景切换帧。

在本实施方式中，所述场景切换帧提取单元100包括：

特征提取模块，用于提取所述场景切换帧的特征，所述特征包括颜色特征、纹理特征以及形状特征中的至少一种；

比对模块，用于将提取的所述特征与特征样本库中的特征样本进行比对，其中，所述特征样本库中的所述特征样本均与文字标签相关联；

目标特征样本确定模块，用于确定所述特征样本库中与提取的所述特征最相似的目标特征样本，并将所述目标特征样本关联的文字标签作为所述场景切换帧对应的场景标签。

在本实施方式中，所述视频摘要生成单元300包括：

相似度计算模块，用于计算所述场景切换帧的场景标签与所述主题标签之间的相似度；

权重系数设置模块，用于根据计算得到的所述相似度，为对应的场景切换帧设置权重系数；

关联值设置模块，用于识别所述场景切换帧中包含的目标对象，并根据识别出的所述目标对象与所述主题标签之间的关联性，为所述场景切换帧设置关联值；

目标帧确定模块，用于计算所述场景切换帧的权重系数与关联值的乘积，并将所述乘积大于指定乘积阈值的场景切换帧确定为所述目标帧。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现装置以外，完全可以通过将方法步骤进行逻辑编程来使得装置以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对装置的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种视频摘要的生成方法，其特征在于，所述视频具备文字描述信息，所述方法包括：

从所述视频中提取多个场景切换帧，并为所述场景切换帧设置场景标签，其中，相邻两个场景切换帧之间的相似度满足指定条件；

从所述文字描述信息中提取所述视频对应的主题标签；

根据所述场景切换帧的场景标签与所述主题标签之间的关联性，从所述多个场景切换帧中筛选出目标帧，并基于所述目标帧生成所述视频的视频摘要。

2.根据权利要求1所述的方法，其特征在于，从所述视频中提取多个场景切换帧包括：

在所述视频中确定基准帧，并依次计算所述基准帧之后的帧与所述基准帧之间的相似度；

当所述基准帧与当前帧之间的相似度小于或者等于指定阈值时，将所述当前帧确定为一个场景切换帧；

将所述当前帧作为新的基准帧，并依次计算所述新的基准帧之后的帧与所述新的基准帧之间的相似度，以根据计算的的所述相似度确定下一个场景切换帧。

3.根据权利要求2所述的方法，其特征在于，相邻两个场景切换帧之间的相似度满足指定条件包括：

相邻两个场景切换帧之间的相似度小于或者等于所述指定阈值。

4.根据权利要求2所述的方法，其特征在于，计算所述基准帧之后的帧与所述基准帧之间的相似度包括：

分别提取所述基准帧和当前帧的第一特征向量和第二特征向量，其中，所述第一特征向量和所述第二特征向量分别表示所述基准帧和所述当前帧的尺度不变特征；

计算所述第一特征向量和所述第二特征向量之间的空间距离，并将所述空间距离的倒数作为所述基准帧与所述当前帧之间的相似度。

5.根据权利要求1所述的方法，其特征在于，为所述场景切换帧设置场景标签包括：

提取所述场景切换帧的特征，所述特征包括颜色特征、纹理特征以及形状特征中的至少一种；

将提取的所述特征与特征样本库中的特征样本进行比对，其中，所述特征样本库中的所述特征样本与文字标签相关联；

确定所述特征样本库中与提取的所述特征最相似的目标特征样本，并将所述目标特征样本关联的文字标签作为所述场景切换帧对应的场景标签。

6.根据权利要求1所述的方法，其特征在于，所述文字描述信息包括所述视频的标题和/或简介；相应地，从所述文字描述信息中提取所述视频对应的主题标签包括：

将所述文字描述信息与文字标签库中的文字标签进行匹配，并将匹配得到的文字标签作为所述视频的主题标签。

7.根据权利要求6所述的方法，其特征在于，所述文字标签库中的文字标签与统计次数相关联，所述统计次数用于表征所述文字标签作为主题标签的总次数；

相应地，当匹配得到的文字标签的数量为至少两个时，所述方法还包括：

按照统计次数从大到小的顺序对匹配得到的文字标签进行排序，并将排序结果中靠前的指定数量个文字标签作为所述视频的主题标签。

8.根据权利要求1所述的方法，其特征在于，从所述多个场景切换帧中筛选出目标帧包括：

计算所述场景切换帧的场景标签与所述主题标签之间的相似度，并将计算的所述相似度大于指定相似度阈值的场景切换帧确定为所述目标帧。

9.根据权利要求8所述的方法，其特征在于，在计算所述场景切换帧的场景标签与所述主题标签之间的相似度之后，所述方法还包括：

根据计算得到的所述相似度，为对应的场景切换帧设置权重系数；

识别所述场景切换帧中包含的目标对象，并根据识别出的所述目标对象与所述主题标签之间的关联性，为所述场景切换帧设置关联值；

计算所述场景切换帧的权重系数与关联值的乘积，并将所述乘积大于指定乘积阈值的场景切换帧确定为所述目标帧。

10.根据权利要求9所述的方法，其特征在于，所述主题标签与至少一个对象相关联；相应地，为所述场景切换帧设置关联值包括：

将从所述场景切换帧中识别出的目标对象与所述至少一个对象进行对比，并统计在所述至少一个对象中出现的目标对象的数量；

将统计的所述数量与指定数值的乘积作为所述场景切换帧的关联值。

11.根据权利要求9所述的方法，其特征在于，所述视频的视频摘要具备指定的帧总数量；相应地，在计算所述场景切换帧的权重系数与关联值的乘积之后，所述方法还包括：

当所述场景切换帧的总数量大于或者等于所述指定的帧总数量时，按照所述乘积从大到小的顺序对所述场景切换帧进行排序，并将排序结果中靠前的所述指定的帧总数量个场景切换帧确定为所述目标帧。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

当所述场景切换帧的总数量小于所述指定的帧总数量时，在相似度小于判定阈值的两个相邻的场景切换帧之间，插入所述视频中的至少一个视频帧，以使得插入所述至少一个视频帧之后的场景切换帧的总数量等于所述指定的帧总数量。

13.根据权利要求1所述的方法，其特征在于，当所述主题标签的数量为至少两个时，从所述多个场景切换帧中筛选出目标帧包括：

针对所述场景切换帧，计算所述场景切换帧的场景标签与所述主题标签之间的相似度；将针对所述场景切换帧计算得出的相似度进行累加，以得到所述场景切换帧对应的累计相似度；

将累计相似度大于指定相似度阈值的场景切换帧确定为所述目标帧。

14.一种视频摘要的生成装置，其特征在于，所述视频具备文字描述信息，所述装置包括：

场景切换帧提取单元，用于从所述视频中提取多个场景切换帧，并为所述场景切换帧设置场景标签，其中，相邻两个场景切换帧之间的相似度满足指定条件；

主题标签提取单元，用于从所述文字描述信息中提取所述视频对应的主题标签；

视频摘要生成单元，用于根据所述场景切换帧的场景标签与所述主题标签之间的关联性，从所述多个场景切换帧中筛选出目标帧，并基于所述目标帧生成所述视频的视频摘要。

15.根据权利要求14所述的装置，其特征在于，所述场景切换帧提取单元包括：

16.根据权利要求14所述的装置，其特征在于，所述场景切换帧提取单元包括：

17.根据权利要求14所述的装置，其特征在于，所述视频摘要生成单元包括：