CN106888407B

CN106888407B - 一种视频摘要生成方法及装置

Info

Publication number: CN106888407B
Application number: CN201710192629.4A
Authority: CN
Inventors: 曾佩玲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-03-28
Filing date: 2017-03-28
Publication date: 2019-04-02
Anticipated expiration: 2037-03-28
Also published as: CN106888407A; WO2018177139A1

Abstract

本发明实施例公开了一种视频摘要生成方法，用于针对不同的用户自动生成不同的视频摘要，提升视频的浏览量，为更多用户提供有效的信息，并提高了视频摘要生成的效率。本发明实施例方法包括：将目标视频分割成若干视频帧；根据用户特征确定每个用户对应的N个目标帧，所述目标帧属于所述视频帧，所述N为大于1的整数；针对每个用户，提取所述用户对应的N个目标帧中的字幕；根据所述字幕生成所述用户对应的目标视频摘要。本发明实施例还提供了一种视频摘要生成装置，用于针对不同的用户自动生成不同的视频摘要，提升视频的浏览量，为更多用户提供有效的信息，并提高了视频摘要生成的效率。

Description

一种视频摘要生成方法及装置

技术领域

本发明涉及计算机应用领域，尤其涉及一种视频摘要生成方法及装置。

背景技术

用户点击进入视频网站或打开视频网站的应用程序(APP，Application)时，会看到与对应视频相关的文字介绍，其主要作用是对视频的重点内容进行概括，以吸引用户点击进入浏览视频，这类文字介绍称为视频摘要。视频摘要的描述对视频的浏览量有着重要影响，那么如何制作效果更佳的视频摘要，是视频网站或视频生产者需要关注的问题。

目前，视频摘要都是通过人工制作而成的，即工作人员对视频进行描述，撰写完成后投放在对应的网站上，供用户浏览。

由于是人工制作，所以制作出来的视频摘要只能针对视频产品本身，每个用户看到的运视频摘要都是一样的，但不同的用户有不同的喜好，针对同一个视频，不同的用户想要获取的信息是不相同的，而人工制作出来的视频摘要针对性较差，无法针对每个用户提供与视频相关的有效信息。另外像一些连载中的电视剧，每天都会有更新的剧情，有新的视频，如果要随剧情更新每集电视剧的视频摘要，就需要大量的人力。

发明内容

本发明实施例提供了一种视频摘要生成方法及装置，用于针对不同的用户自动生成不同的视频摘要，提升视频的浏览量，为更多用户提供有效信息，并提高了视频摘要生成的效率。

有鉴于此，本发明实施例第一方面提供了一种视频摘要生成方法，包括：

将目标视频分割成若干视频帧；

根据用户特征确定每个用户对应的N个目标帧，所述目标帧属于所述视频帧，所述N为大于1的整数；

针对每个用户，提取所述用户对应的N个目标帧中的字幕；

根据所述字幕生成所述用户对应的目标视频摘要。

本发明实施例第二方面提供了一种视频摘要生成装置，包括：

分割模块，用于将目标视频分割成若干视频帧；

第一确定模块，用于根据用户特征确定每个用户对应的N个目标帧，所述目标帧属于所述视频帧，所述N为大于1的整数；

提取模块，用于针对每个用户，提取所述用户对应的N个目标帧中的字幕；

生成模块，用于根据所述字幕生成所述用户对应的目标视频摘要。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例可以将目标视频分割成若干视频帧，根据用户特征确定每个用户对应的N个目标帧，针对每个用户，提取该用户对应的N个目标帧中的字幕，并根据提取的字幕生成该用户对应的目标视频摘要。可见，本方案能够自动生成视频摘要，并且能够依据用户特征向不同的用户展示不同的视频摘要，更具有针对性，能够提升视频的浏览量，为更多用户提供有效信息，并提高了视频摘要生成的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1是本发明实施例中视频摘要生成系统的一个实施例示意图；

图2是本发明实施例中视频摘要生成方法的一个实施例流程图；

图3是本发明实施例中视频摘要生成方法的另一实施例流程图；

图4是本发明实施例中视频摘要生成装置的一个实施例示意图；

图5是本发明实施例中视频摘要生成装置的另一实施例示意图；

图6是本发明实施例中视频摘要生成装置的另一实施例示意图；

图7是本发明实施例中视频摘要生成装置的另一实施例示意图；

图8是本发明实施例中视频摘要生成装置的另一实施例示意图；

图9是本发明实施例中视频摘要生成装置的另一实施例示意图；

图10是本发明实施例中视频摘要生成装置的另一实施例示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种视频摘要生成方法及装置，用于针对每个用户自动生成不同的视频摘要，提升视频的浏览量，为更多用户提供有效信息，并提高了视频摘要生成的效率。

为了便于理解本发明实施例，下面对本发明实施例所适用的场景进行简单介绍，参见图1，其示出了本发明实施例提供的一种视频摘要生成方法及装置所适用的一种系统组成结构示意图。

如图1所示，该系统可以包括由至少一台服务器101组成的服务系统，以及多台终端102。其中，服务系统中的服务器101中可以存储用于生成视频摘要的数据，并将生成的视频摘要传输给终端。终端102可以用于向服务器上传需要生成视频摘要的目标视频数据，展现服务器返回的视频摘要。应理解，终端102不限于图1所示的个人计算机(PC，PersonalComputer)，还可以是手机、平板电脑等其他能够获取并展示视频摘要的设备。

如，用户可以通过终端向服务器上传目标视频，服务器通过本发明实施例中的视频摘要生成方法针对每个用户，生成该用户对应的视频摘要，并向各终端返回与该终端上登录的用户匹配的视频摘要，终端再将服务器返回的视频摘要呈现给用户。

应理解，本发明实施例中的视频摘要生成方法及装置除了适用于上述场景，还可以适用于其他场景，具体此处不作限定。为了便于理解本发明实施例，下面对本发明实施例中的一些术语进行介绍：

视频帧，就是影像动画中最小单位的单幅影像画面。一帧就是一副静止的画面，连续的帧就形成动画，如电视图象等。每一帧都是静止的图象，快速连续地显示帧便形成了运动的假象。

关键帧，任何动画要表现运动或变化，至少前后要给出两个不同的关键状态，而中间状态的变化和衔接电脑可以自动完成，在Flash中，表示关键状态的帧叫做关键帧。

镜头数据，指的是摄像机一次连续拍摄的一段视频数据，它是视频结构化的基础物理单元。

K均值聚类，是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。该算法的工作原理是，输入聚类个数k，以及包含n个数据对象的数据库，最终会输出满足方差最小标准的k个聚类。k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。具体处理过程如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类；然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值)；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。

应理解，本发明实施例中的视频摘要生成方法及装置除了适用于上述提到的视频摘要制作，还可以适用于电影海报文字部分的制作等其他与视频相关的文字介绍，具体此处不作限定。

基于上述背景，下面先介绍本发明实施例中的视频摘要生成方法，请参阅图2，本发明实施例中视频摘要生成方法的一个实施例包括：

201、将目标视频分割成若干视频帧；

当用户需要制作目标视频的视频摘要时，首先输入该目标视频，视频摘要生成装置获取该目标视频，并将该目标视频分割成若干视频帧。目标视频可以是一个或多个视频序列，比如一部电影，某电视剧的其中几集或其他视频，具体此处不作限定。

202、根据用户特征确定每个用户对应的N个目标帧；

视频摘要生成装置将目标视频分割成若干视频帧后，根据用户特征确定每个用户对应的N个目标帧，其中，目标帧是从目标视频对应的若干视频帧中选择的，目标帧的数量N为大于1的整数，具体数值可由用户或系统设定，此处不作限定。

203、针对每个用户，提取该用户对应的N个目标帧中的字幕；

视频摘要生成装置确定每个用户对应的目标帧后，针对每个用户，提取该用户对应的N个目标帧中的字幕。应理解，字幕指的是以文字形式显示电视剧，电影等影视作品里面的对话，动作等非影像内容，也泛指影视作品后期加工的文字。

204、根据提取的字幕生成该用户对应的目标视频摘要。

对于任意一个用户，视频摘要生成装置提取了该用户对应的N个目标帧中的字幕后，会根据这些提取的字幕生成该用户对应的目标视频摘要。应理解，目标视频摘要指的是目标视频的视频摘要，用于向用户介绍目标视频的内容。应理解，根据字幕生成的目标视频摘要应当符合自然语言的要求，由一个或多个完整的句子所组成。

基于上述图2对应的实施例，目标视频可以通过多种方式分割成视频帧，基于不同的分割方式，确定目标帧的方式也不同，下面以其中一种方式为例对本发明实施例中的视频摘要生成方法进行详细说明，请参阅图3，本发明实施例中视频摘要生成方法的另一实施例包括：

301、将目标视频分割成若干个镜头数据；

当用户需要制作目标视频的视频摘要时，首先输入该目标视频，视频摘要生成装置获取该目标视频，将目标视频分割成若干个镜头数据，具体可以根据颜色空间的距离或其他参数进行分割，具体此处不作限定。目标视频可以是一个或多个视频序列，比如一部电影，某电视剧的其中几集或其他视频，此处不作限定。

302、将每个镜头数据分割成若干个子镜头数据；

将目标视频分割成若干个镜头数据后，进一步将每个镜头数据分割成子镜头数据，具体可以根据相机运动方向等其他参数进行分割，此处不作限定。

303、将每个子镜头数据分割成若干视频帧；

视频摘要生成装置将每个镜头数据分割成若干个子镜头数据后，进一步将每个子镜头数据分割成若干视频帧。

304、根据用户特征确定每个用户对应的L个子镜头数据；

视频摘要生成装置将每个镜头数据分割成若干个子镜头数据后，根据用户特征确定每个用户对应的L个子镜头数据，L为等于或大于1的整数。

具体地，视频摘要生成装置可以针对每个用户，确定目标视频包含的子镜头数据中该用户对应的标签信息的目标子镜头数据，再确定这些目标子镜头数据中预设子镜头权重排名前L的子镜头数据。

需要说明的是，本发明实施例中的预设子镜头权重可以通过如下方式确定：视频摘要生成装置将每个子镜头数据分割成若干视频帧后，根据子镜头对应的持续时间长度，即根据子镜头包含的视频帧的数量作为该子镜头的权重大小。除了根据视频帧的数量，也可以进一步根据子镜头包含的视频帧的权重来确定子镜头的权重，还可以根据其他参数确定，具体此处不作限定。

还需要说明的是，本发明实施例中用户对应的标签信息可以是用户标签中的演员名字，可以是用户标签中的导演名字，可以是用户标识中的电影类型，还可以是用户标签中的其他信息，具体此处不作限定。应理解，如果用户没有对应的标签信息，视频摘要生成装置可以直接将预设子镜头权重排名前L的子镜头数据作为该用户对应的L个子镜头数据。如果目标子镜头数据的数量M小于L，那么视频摘要生成装置选择所有目标子镜头数据后，剩余的L-M个目标子镜头数据再按照预设子镜头权重从目标视频对应的子镜头数据中选取。

应理解，除了用户对应的标签信息，视频摘要生成装置还可以根据用户观看过的视频信息，用户收藏过的视频信息，用户搜索过的关键词等用户特征确定目标子镜头数据，具体此处不作限定。

305、根据预设帧权重确定L个子镜头数据中每个子镜头数据对应的X个目标帧；

视频摘要生成装置确定每个用户对应的L个子镜头数据后，根据预设帧权重确定这L个子镜头数据中每个子镜头数据对应的X个目标帧。X为等于或大于1的整数，且X乘以L等于N。

应理解，预设帧权重是视频摘要生成装置将子镜头数据分割成若干视频帧之后确定的，具体可以通过如下方式：针对每个子镜头数据，通过K均值聚类将该子镜头数据中的视频帧分成K类，将每类视频帧中离聚类中心最近的视频帧确定为该类视频帧的关键帧，根据帧参数确定每个关键帧对应的帧权重。其中帧参数包括人脸占比，或相机运动方向，或相机焦距，或相机是否摇摆，或其他参数。

相应地，根据上述方式确定帧权重后，视频摘要生成装置可以确定L个子镜头数据中每个子镜头数据包含的关键帧，再针对这L个子镜头数据，确定每个子镜头数据包含的关键帧中帧权重最大的X视频帧，这X个视频帧即为这个子镜头数据对应的目标帧。

除了上述方式，视频摘要生成装置还可以通过其他方式确定帧权重以及目标帧，具体此处不作限定。

306、针对每个用户，提取该用户对应的N个目标帧中的字幕；

视频摘要生成装置确定每个用户对应的目标帧后，针对每个用户，提取该用户对应的N个目标帧中的字幕。应理解，字幕指的是以文字形式显示电视剧，电影等影视作品里面的对话，动作等非影像内容，也泛指影视作品后期加工的文字。具体地，视频摘要生成装置可以通过如下方式提取字幕：

(1)针对每个目标帧，提取该目标帧对应的所有字幕，即提取N个目标帧中的所有字幕。

(2)针对每个目标帧，提取该目标帧对应的预置长度的字幕。应理解，预置长度由用户或装置设定，预置长度可以是对文字数量的限定，也可以是对句子数量的限定，还可以是对段落的限定，比如说，预置长度可以是30个字，可以是3句话，可以是1段话，还可以是其他长度限定，具体此处不作限定。

(3)针对每个目标帧，提取该目标帧对应的前后一定长度的字幕。应理解，前后指的是字幕在目标帧中出现顺序的先后，一定长度即预先设定的长度，与上述预置长度类似，此处不再赘述。为了便于理解，下面举例进行说明：针对每个目标帧，提取该目标帧对应的字幕中的前三句话和后三句话。应理解，上述仅为示例，不构成对本发明实施例的限定。

还应理解，除了上述几种方式，还可以通过其他方式提取目标帧中的字幕，具体此处不作限定。

307、根据提取的字幕生成该用户对应的目标视频摘要。

具体地，视频摘要生成装置可以通过如下方式生成用户对应的目标视频摘要：

提取字幕中的多个关键词，对提取的关键词进行组合生成至少一个句子，所组成的一个或多个句子即组成用户对应的目标视频摘要。应理解，关键词可以是字幕中出现频率大于预设值的词语，可以是字幕中词性为预设类型的词语，可以是字幕中与预先设定词语匹配的词语，还可以是通过其他方式确定的词语，具体此处不作限定。应理解，组合生成的句子应当满足自然语言要求，应当是一个完整的句子。

视频摘要生成装置还可以通过其他方式生成用户对应的目标视频摘要，具体此处不作限定。

还应理解，本发明实施例中，视频摘要生成装置针对每个用户生成该用户对应的视频摘要后，还可以根据预设规则更新该视频摘要。预设规则指的是预先设定好的更新规则，具体可以是时间周期，即定期更新该视频摘要，比如一周更新一次，一个月更新一次等，可以是达到触发条件，比如电视剧每更新一集，则更新一次视频摘要，还可以是其他规则，具体此处不作限定。

其次，本发明实施例提供了一种将目标视频分割成若干视频帧的具体方式，提高了方案的可实现性。

再次，本发明实施例提供了多种确定目标帧的方式，以及多种提取字幕和生成摘要的方式，提高了方案的灵活性性。

进一步地，本发明实施例可以更新该视频摘要，进一步地提升了视频摘要的时效性。

为了便于理解，下面以一应用场景对本发明实施例中的视频摘要生成方法进行详细描述：

系统输入电视剧《小别离》的第1集和第2集两个视频(目标视频)，视频摘要生成装置安装颜色空间距离将这两个视频分割成6个镜头数据然后将这6个镜头数据根据摄像机的运动方向分割成24个子镜头数据，再将这24个子镜头数据分割成100视频帧。

将目标视频分割成视频帧之后，视频摘要生成装置根据子镜头数据中包含的视频帧的数量作为子镜头数据的权重。同时，视频摘要生成装置针对每个子镜头数据，通过均值聚类将该子镜头数据中的视频帧分成3类，并将每类视频帧中离聚类中心最近的视频帧确定为该类视频帧的关键帧，即每个子镜头数据对应3个关键帧，再根据关键帧对应的图像中的人脸占比确定该关键帧对应的帧权重。

现有A和B两个用户，其中用户A对应的标签信息为海清，用户B没有设置标签信息。则视频摘要生成装置确定目标视频对应的24个子镜头数据中，包含的视频帧数量最多的前3个(L＝3)子镜头数据，即预设子镜头权重排名前3的子镜头数据，作为用户B对应的子镜头数据，分别记为a，b，c。同时，视频摘要生成装置确定目标视频中包含有海清的子镜头数据，结果显示包含海清的子镜头数据有15个(目标子镜头数据)，然后视频摘要生成装置再确定这15个子镜头数据中视频帧数量最多的前3个(L＝3)字镜头数据，即从这15个子镜头数据中选取子镜头权重排名前3的子镜头数据，这3个子镜头数据分别为b，c，d。

确定A对应的3个子镜头数据(a，b，c)后，视频摘要生成装置确定a，b，c中的关键帧，然后根据上述确定的关键帧对应的帧权重，从a对应的3个关键帧中选取帧权重最大的关键帧a1(X＝1)，从b对应的3个关键帧中选取帧权重最大的1个关键帧b1，从c对应的3个关键帧中选取帧权重最大的1个关键帧c1，然后再将a1，b1和c1作为A对应的目标帧。

确定A对应的3个目标帧后，视频摘要生成装置提取这3个目标帧中的所有字幕，其中a1对应的字幕为“爸爸，我的英语考试不及格”，“朵朵，怎么会不及格了呢，英语成绩不是一直都挺好的吗”，“妈妈知道了肯定要骂我，周日你能去开家长会吗”，“行，周日我会去开家长会的”。b1对应的字幕为：“英语成绩不及格还瞒着妈妈，还有没把妈妈放在眼里了”。c1对应的字幕为“朵朵，怎么可以不经过我同意就把狗带回来呢，家里不能养狗”，“我一直就想养狗，你就答应我嘛”。

视频摘要生成装置根据a1，b1和c1对应的字幕，提取关键词“朵朵”，“英语成绩”，“不及格”，“爸爸”，“去开家长会”，“想养狗”，“不经过同意”，“瞒着妈妈”，然后再对这些字幕进行组合，生成句子“朵朵英语成绩不及格，爸爸瞒着妈妈去开家长会。朵朵想要养狗。”

确定B对应的3个子镜头数据(b，c，d)后，视频摘要生成装置确定b，c，d中的关键帧，然后根据上述确定的关键帧对应的帧权重，从b对应的3个关键帧中选取帧权重最大的关键帧b1，从c对应的3个关键帧中选取帧权重最大的1个关键帧c1，从d对应的3个关键帧中选取帧权重最大的1个关键帧d1，然后再将b1，d1，e1和f1作为B对应的目标帧。确定A对应的3个目标帧后，视频摘要生成装置提取这3个目标帧中的所有字幕，a1和b1对应的字幕如上所述，f1对应的字幕为：“朵朵，妈妈给你请了英语家教，你要好好配合老师，才能提升你的英语成绩。”上述句子即为A对应的目标视频的视频摘要。

视频摘要生成装置根据a1，b1和d1对应的字幕，提取关键词“朵朵”，“英语成绩”，“不及格”，“爸爸”，“去开家长会”，“瞒着”，“妈妈”，“请了英语家教”，“提升”然后再对这些字幕进行组合，生成句子“朵朵英语成绩不及格，爸爸瞒着妈妈去开家长会。妈妈请英语家教，提升朵朵英语成绩”，上述句子即为B对应的目标视频的视频摘要。

另外，视频摘要生成装置预先设定了更新规则：电视剧每更新两集更新一次视频摘要。一周后，电视剧《小别离》又更新了两集，系统输入《小别离》的第3集和第4集，生成装置根据新输入的第3集视频和第4集视频更新各个用户对应的视频摘要。

上面介绍了本发明实施例中的视频摘要生成方法，下面介绍本发明实施例中的视频摘要生成装置，请参阅图4，本发明实施例中视频摘要生成装置的一个实施例包括：

分割模块401，用于将目标视频分割成若干视频帧；

第一确定模块402，用于根据用户特征确定每个用户对应的N个目标帧，目标帧属于视频帧，N为大于1的整数；

提取模块403，用于针对每个用户，提取该用户对应的N个目标帧中的字幕；

生成模块404，用于根据提取模块403提取的字幕生成用户对应的目标视频摘要。

基于上述图4对应的实施例，请参阅图5，在本发明实施例提供的视频摘要生成装置的另一实施例中，生成模块404包括：

第一提取单元4041，用于提取字幕中的多个关键词；

生成单元4042，用于对关键词进行组合，生成至少一个句子。

可选地，在本发明实施例中，提取模块403可以包括：

第二提取单元4031，用于针对每个目标帧，提取该目标帧对应的所有字幕；

或，

第三提取单元4032，用于针对每个目标帧，提取该目标帧对应的预置长度的字幕。

本发明实施例提供了一种生成视频摘要的具体方式，提高了方案的可实现性。

其次本发明实施例提供了多种提取目标帧中的字幕的方式，提高了方案的灵活性。

基于上述图4或图5对应的实施例，请参阅图6，在本发明实施例提供的视频摘要生成装置的另一实施例中，分割模块401包括：

第一分割单元4011，用于将目标视频分割成若干个镜头数据；

第二分割单元4012，用于将每个镜头数据分割成若干个子镜头数据；

第三分割单元4013，用于将每个子镜头数据分割成若干视频帧。

本发明实施例提供了一种分割目标视频的具体方式，提高了方案的可实现性。

基于上述图6对应的实施例，请参阅图7，在本发明实施例提供的视频摘要生成装置的另一实施例中，第一确定模块402包括：

第一确定单元4021，用于根据用户特征确定每个用户对应的L个子镜头数据，L为等于或大于1的整数；

第二确定单元4022，根据预设帧权重确定L个子镜头数据中每个子镜头数据对应的X个目标帧，X为等于或大于1的整数，X乘以L等于N。

本发明实施例提供了一种确定目标帧的具体实现方式，提高了方案的可实现性。

基于上述图7对应的实施例，请参阅图8，在本发明实施例提供的视频摘要生成装置的另一实施例中，第一确定单元4021包括：

第一确定子单元40211，用于针对每个用户，确定目标视频对应的若干个子镜头数据中包含该用户对应的标签信息的目标子镜头数据；

第二确定子单元40212，用于确定目标子镜头数据中预设子镜头权重排名前L的子镜头数据。

本发明实施例中，视频摘要生成装置提供了一种确定每个用户对应的L个子镜头数据的方式，提高了方案的可实现性。

基于上述图7或图8对应的实施例，请参阅图9，在本发明实施例提供的视频摘要生成装置的另一实施例中，该视频摘要生成装置还包括：

分类模块405，用于针对每个子镜头数据，通过K均值聚类将该子镜头数据中的视频帧分成K类；

第二确定模块406，用于将每类视频帧中离聚类中心最近的视频帧确定为该类视频帧的关键帧；

第三确定模块407，用于根据帧参数确定每个关键帧对应的帧权重；

第二确定单元4022包括：

第三确定子单元40221，用于针对L个子镜头数据，确定该子镜头数据包含的关键帧中帧权重最大的X个目标帧。

本发明实施例提供了一种确定L个子镜头数据中的目标帧的具体方式，提高了方案的可实现性。

基于上述图4至图9对应的实施例中任意一个实施例，本发明实施例提供的视频摘要生成装置的另一些实施例中，视频摘要生成装置还可以包括：

更新模块，用于根据预设规则更新视频摘要。

本发明实施例中视频摘要生成装置还可以根据预设规则更新视频摘要，提高了方案的灵活性。

上面从功能模块的角度介绍了本发明实施例中的视频摘要生成装置，下面从硬件实体的角度介绍本发明实施例中的视频摘要生成装置，请参阅图10，图10是本发明实施例中视频摘要生成装置50的结构示意图。视频摘要生成装置50可包括输入设备510、输出设备520、处理器530和存储器540。本发明实施例中的输出设备可以是显示设备。

存储器540可以包括只读存储器和随机存取存储器，并向处理器530提供指令和数据。存储器540的一部分还可以包括非易失性随机存取存储器(英文全称：Non-VolatileRandom Access Memory，英文缩写：NVRAM)。

存储器540存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集：

操作指令：包括各种操作指令，用于实现各种操作。

操作系统：包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

本发明实施例中处理器530用于：

将目标视频分割成若干视频帧；

根据用户特征确定每个用户对应的N个目标帧，目标帧属于视频帧，N为大于1的整数；

针对每个用户，提取用户对应的N个目标帧中的字幕；

根据字幕生成用户对应的目标视频摘要。

处理器530控制视频摘要生成装置50的操作，处理器530还可以称为中央处理单元(英文全称：Central Processing Unit，英文缩写：CPU)。存储器540可以包括只读存储器和随机存取存储器，并向处理器530提供指令和数据。存储器540的一部分还可以包括NVRAM。具体的应用中，视频摘要生成装置50的各个组件通过总线系统550耦合在一起，其中总线系统550除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统550。

上述本发明实施例揭示的方法可以应用于处理器530中，或者由处理器530实现。处理器530可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器530中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器530可以是通用处理器、数字信号处理器(英文全称：Digital Signal Processing，英文缩写：DSP)、专用集成电路(英文全称：Application Specific Integrated Circuit，英文缩写：ASIC)、现成可编程门阵列(英文全称：Field－Programmable Gate Array，英文缩写：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器540，处理器530读取存储器540中的信息，结合其硬件完成上述方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频摘要生成方法，其特征在于，包括：

将目标视频分割成若干个子镜头数据，每个所述子镜头数据被分割成若干个视频帧；

针对每个所述子镜头数据，通过K均值聚类将该子镜头数据中的视频帧分成K类；

将每类视频帧中离聚类中心最近的视频帧确定为该类视频帧的关键帧；

根据帧参数确定每个关键帧对应的帧权重；

根据用户特征确定每个用户对应的N个目标帧，所述目标帧属于所述视频帧，所述N为大于1的整数，其中，用户特征包括用户对应的标签信息、用户观看过的视频信息、用户收藏过的视频信息和用户搜索过的关键词中的任意一种或多种；

针对每个用户，提取所述用户对应的N个目标帧中的字幕；

根据所述字幕生成所述用户对应的目标视频摘要；

其中，所述根据用户特征确定每个用户对应的N个目标帧包括：

根据用户特征确定每个用户对应的L个子镜头数据，所述L为等于或大于1的整数；

针对所述L个子镜头数据，确定该子镜头数据包含的关键帧中帧权重最大的X个目标帧，所述X为等于或大于1的整数，所述X乘以所述L等于所述N。

2.根据权利要求1所述的方法，其特征在于，所述根据所述字幕生成所述用户对应的目标视频摘要包括：

提取所述字幕中的多个关键词；

对所述关键词进行组合，生成至少一个句子。

3.根据权利要求1所述的方法，其特征在于，所述提取所述用户对应的N个目标帧中的字幕包括：

针对每个目标帧，提取所述目标帧对应的所有字幕；

或，

针对每个目标帧，提取所述目标帧对应的预置长度的字幕。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述将目标视频分割成若干视频帧包括：

将所述目标视频分割成若干个镜头数据；

将每个镜头数据分割成若干个子镜头数据；

将每个子镜头数据分割成若干视频帧。

5.根据权利要求4所述的方法，其特征在于，所述根据用户特征确定每个用户对应的L个子镜头数据包括：

针对每个用户，确定所述目标视频对应的若干个子镜头数据中包含该用户对应的标签信息的目标子镜头数据；

确定所述目标子镜头数据中预设子镜头权重排名前L的子镜头数据。

6.一种视频摘要生成装置，其特征在于，包括：

分割模块，用于将目标视频分割成若干个子镜头数据，每个所述子镜头数据被分割成若干个视频帧；

分类模块，用于针对每个子镜头数据，通过K均值聚类将该子镜头数据中的视频帧分成K类；

第二确定模块，用于将每类视频帧中离聚类中心最近的视频帧确定为该类视频帧的关键帧；

第三确定模块，用于根据帧参数确定每个关键帧对应的帧权重；

第一确定模块，用于根据用户特征确定每个用户对应的N个目标帧，所述目标帧属于所述视频帧，所述N为大于1的整数，其中，用户特征包括用户对应的标签信息、用户观看过的视频信息、用户收藏过的视频信息和用户搜索过的关键词中的任意一种或多种；

生成模块，用于根据所述字幕生成所述用户对应的目标视频摘要；

其中，所述第一确定模块包括：

第一确定单元，用于根据用户特征确定每个用户对应的L个子镜头数据，所述L为等于或大于1的整数；

第二确定单元，用于根据预设帧权重确定所述L个子镜头数据中每个子镜头数据对应的X个目标帧，所述X为等于或大于1的整数，所述X乘以所述L等于所述N；

所述第二确定单元包括：

第三确定子单元，用于针对所述L个子镜头数据，确定该子镜头数据包含的关键帧中帧权重最大的X个目标帧。

7.根据权利要求6所述的装置，其特征在于，所述生成模块包括：

第一提取单元，用于提取所述字幕中的多个关键词；

生成单元，用于对所述关键词进行组合，生成至少一个句子。

8.根据权利要求6所述的装置，其特征在于，所述提取模块包括：

第二提取单元，用于针对每个目标帧，提取所述目标帧对应的所有字幕；

或，

第三提取单元，用于针对每个目标帧，提取所述目标帧对应的预置长度的字幕。

9.根据权利要求6至8中任一项所述的装置，其特征在于，所述分割模块包括：

第一分割单元，用于将所述目标视频分割成若干个镜头数据；

第二分割单元，用于将每个镜头数据分割成若干个子镜头数据；

第三分割单元，用于将每个子镜头数据分割成若干视频帧。

10.根据权利要求9所述的装置，其特征在于，所述第一确定单元包括：

第一确定子单元，用于针对每个用户，确定所述目标视频对应的若干个子镜头数据中包含该用户对应的标签信息的目标子镜头数据；

第二确定子单元，用于确定所述目标子镜头数据中预设子镜头权重排名前L的子镜头数据。