CN112445935A

CN112445935A - 一种基于内容分析的视频精选合集的自动生成方法

Info

Publication number: CN112445935A
Application number: CN202011338142.0A
Authority: CN
Inventors: 熊杰; 金炎芳
Original assignee: Kaiwang Hangzhou Technology Co ltd
Current assignee: Kaiwang Hangzhou Technology Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-05
Anticipated expiration: 2040-11-25
Also published as: CN112445935B

Abstract

本发明公开了一种基于内容分析的视频精选合集的自动生成方法，包括：根据预设的筛选规则对原始视频进行初筛，获得多个原始视频片段；利用KTS算法将初筛后的视频内容划分为多个连续片段；利用fscn算法对各个连续片段进行视频精彩度分析，获得多个候选精彩连续片段；分别对各个候选精彩连续片段的图片质量、人脸检测与分析和年龄进行评分并分配权重，并结合视频内容鉴黄结果，对各个候选精彩连续片段进行最终打分；基于最终打分结果筛选出多个最终精彩连续片段；在各个最终精彩连续片段的衔接处添加特效及转场效果，生成视频精彩合集。本发明用户上传的原始视频内容进行整体分析、自动剪辑与合成，具有连贯性佳、呈现效果好的特点。

Description

一种基于内容分析的视频精选合集的自动生成方法

技术领域

本发明涉及图像识别技术领域，更具体的说是涉及一种基于内容分析的视频精选合集的自动生成方法。

背景技术

现有的视频精选合集生成基本分为两种，一种是用户自己通过视频剪辑软件来选择自己喜欢的视频和转场等效果对视频进行生成；一种是通过深度学习等技术来对视频内容进行分析来智能选择视频片段进行生成。相对来说，第二种方案更能节省时间。

目前的智能视频精选合集生成方案主要存在以下缺陷：1、没有考虑到对于短视频的精彩片度提取的问题，一般短视频场景较为单一，使用多段视频进行合成会出现比较断节的问题；2、通常视频的精彩片段的选取从单个视频中截取，没考虑到多个视频之间的人物信息，以及使用多个视频进行合成的问题，一般视频精彩合集整体结果并不好。

因此，如何提供一种视频的连贯性好，且呈现效果佳的基于内容分析的视频精选合集的自动生成方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于内容分析的视频精选合集的自动生成方法，结合图片质量、人脸识别、年龄和视频内容对用户上传的原始视频内容进行自动剪辑与合成，具有连贯性佳、呈现效果好的特点。

为了实现上述目的，本发明采用如下技术方案：

一种基于内容分析的视频精选合集的自动生成方法，包括：

根据预设的筛选规则对原始视频进行初筛，获得多个原始视频片段；

利用KTS算法对初筛后的视频内容进行频域分析，并基于频域分析结果分别将初筛后的多个所述原始视频片段划分为多个连续片段；

利用fscn算法对各个所述连续片段进行视频精彩度分析，获得多个候选精彩连续片段；

对各个所述候选精彩连续片段进行抽帧处理，并分别对所抽取的各个视频帧的图片质量、人脸检测与分析和年龄进行评分；

分别对各个所述候选精彩连续片段的图片质量、人脸检测与分析和年龄分配权重，并结合视频内容鉴黄结果，对各个所述候选精彩连续片段进行最终打分；

基于最终打分结果和预设的分数阈值，对各个所述候选精彩连续片段进行排序，并根据排名结果筛选出多个最终精彩连续片段；

在各个所述最终精彩连续片段的衔接处添加特效及转场效果，生成视频精彩合集。

优选的，所述根据预设的筛选规则对原始视频进行初筛，所述筛选规则为：拍摄时间跨度满足预设的时间区间范围，所选取的视频时长满足预设的时长区间范围。

优选的，利用KTS算法对初筛后的视频内容进行频域分析，并基于频域分析结果将初筛后的视频内容划分为多个连续片段，包括：

对初筛出的视频内容进行抽帧；

利用GoogLeNet提取所抽取的各个视频帧的频域特征；

基于各个视频帧的频域特征，利用KTS算法对各个所述原始视频片段进行截取，生成多个连续片段以及各个所述连续片段的起止时间。

优选的，利用fscn算法对各个所述连续片段进行视频精彩度分析，获得多个候选精彩连续片段，包括：

利用视频摘要算法对各个所述连续片段进行打分；

选取分数值大于预设值的多个所述连续片段作为候选精彩连续片段。

优选的，所述图片质量估计包括：

计算各个所述候选精彩连续片段中所抽取的视频帧图片的光照度和模糊度；

基于所述光照度和所述模糊度对所述视频帧图片进行打分，将得分结果作为该视频帧图片对应的所述候选精彩连续片段的视频质量分数；

确定图像质量阈值；

筛选出得分结果大于所述图像质量阈值的所述视频帧图片。

优选的，所述人脸检测与分析包括：

利用人脸检测模型确定人脸关键点信息；

基于所述人脸关键点信息，对各个所述候选精彩连续片段中所抽取的视频帧图片进行人脸检测，检测出人脸部分并进行裁剪；

利用人脸识别算法对裁剪的人脸部分进行特征提取；

根据提取的人脸特征确定人脸检测与分析；

将人脸检测与分析结果进行存储。

优选的，所述年龄估计包括：

将裁剪出的人脸部分与所述人脸关键点信息进行对齐操作；

利用年龄估计算法对对齐后的人脸部分进行年龄预测；

将年龄预测结果进行存储。

优选的，分别对各个所述候选精彩连续片段的图片质量、人脸检测与分析和年龄分配权重，并结合视频内容鉴别结果，对各个所述候选精彩连续片段进行最终打分，包括：

基于人脸检测与分析结果和年龄预测结果，对各个所述原始视频片段中的各个所述候选精彩连续片段所抽取的各个视频帧的人脸特征进行聚类分析；

根据聚类分析结果，确定标准比对特征；如果聚类分析结果中不存在用户的人脸特征，则选择样本中最多人脸特征的聚类中心作为所述标准比对特征，否则，选择用户的人脸特征作为所述标准比对特征；

分别计算每个所述候选精彩连续片段中的各个人脸特征与所述标准比对特征的余弦相似度；

计算各个所述候选精彩连续片段各个视频帧的所述余弦相似度的平均值，作为相似度评价分数；

根据所述相似度评价分数、所述视频质量分数、人脸检测与分析和年龄对各个所述候选精彩连续片段进行打分，得到综合评价得分。

优选的，基于最终打分结果和预设的分数阈值，对各个所述候选精彩连续片段进行排序，并根据排名结果筛选出多个最终精彩连续片段，包括：

确定综合评价得分阈值；

筛选综合评价得分大于所述综合评价得分阈值的候选精彩连续片段；

按照所述相似度评价分数对筛选后的各个所述候选精彩连续片段进行排序，选择排名前n的视频片段作为最终精彩连续片段。

优选的，如果所述各个所述候选精彩连续片段的综合评价得分均小于所述综合评价得分阈值，则选择在下一时间区间范围再进行筛选；

如果所述候选精彩连续片段的个数小于n，则不生成所述视频精彩合集。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于内容分析的视频精选合集的自动生成方法，本发明能够在用户拍摄视频较多，且没有时间进行整理时，对用户上传的视频进行整体分析，考虑到多个视频片段之间的人物关系，选取精彩部分视频片段，并结合视频质量、人脸检测与分析和人脸年龄给各个视频片段打分，最后在相衔接的两个视频片段之间加入特效及转场效果，获得精彩视频合集，视频集具有较佳的流畅度、连贯性和成效效果，且能大大节省用户时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的基于内容分析的视频精选合集的自动生成方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例公开了一种基于内容分析的视频精选合集的自动生成方法，包括以下步骤：

S1、根据预设的筛选规则对原始视频进行初筛，获得多个原始视频片段；

S2、利用KTS算法对初筛后的视频内容进行频域分析，并基于频域分析结果分别将多个原始视频片段划分为多个连续片段；

S3、利用fscn算法对各个连续片段进行视频精彩度分析，获得多个候选精彩连续片段；

S4、对各个候选精彩连续片段进行抽帧处理，并对所抽取的各个视频帧的图片质量、人脸检测与分析和年龄进行评分；

S5、分别对各个候选精彩连续片段的图片质量、人脸检测与分析和年龄分配权重，并结合视频内容鉴黄结果，对各个候选精彩连续片段进行最终打分；

S6、基于最终打分结果和预设的分数阈值，对各个候选精彩连续片段进行排序，并根据排名结果筛选出多个最终精彩连续片段；

S7、在各个最终精彩连续片段的衔接处添加特效及转场效果，生成视频精彩合集。

下面对上述步骤进行逐一详细说明。

S1、根据预设的筛选规则对原始视频进行初筛，获得多个原始视频片段：筛选规则为：拍摄时间跨度满足预设的时间区间范围，所选取的视频时长满足预设的时长区间范围。

S2、利用KTS算法对初筛后的视频内容进行频域分析，并基于频域分析结果分别将多个原始视频片段划分为多个连续片段。KTS算法为kernel temporal segmentation。

具体包括以下步骤：

S21、对初筛出的视频内容进行抽帧；

S22、利用GoogLeNet提取所抽取的各个视频帧的频域特征；

S23、基于各个视频帧的频域特征，利用KTS算法对各个原始视频片段进行截取，生成多个连续片段以及各个连续片段的起止时间。

S3、利用fscn算法对各个连续片段进行视频精彩度分析，获得多个候选精彩连续片段。fscn算法为Fully Convolutional Sequence Network。

具体包括以下步骤：

S31、利用视频摘要算法对各个连续片段进行打分；

S32、选取分数值大于预设值的多个连续片段作为候选精彩连续片段。

S4、对各个候选精彩连续片段进行抽帧处理，并对所抽取的各个视频帧的图片质量、人脸检测与分析和年龄分别进行评分。

其中，图片质量估计包括以下步骤：

S411、计算各个候选精彩连续片段中所抽取的视频帧图片的光照度和模糊度；

S412、基于光照度和模糊度对视频帧图片进行打分，将得分结果作为该视频帧图片对应的候选精彩连续片段的视频质量分数；

S413、确定图像质量阈值；

S414、筛选出得分结果大于图像质量阈值的视频帧图片。

人脸检测与分析包括以下步骤：

S421、利用人脸检测模型确定人脸关键点信息；

S422、基于人脸关键点信息，对各个候选精彩连续片段中所抽取的视频帧图片进行人脸检测，检测出人脸部分并进行裁剪；

S423、利用人脸识别算法对裁剪的人脸部分进行特征提取；

S424、根据提取的人脸特征确定人脸检测与分析；

S425、将人脸检测与分析结果进行存储。对单个视频片段的人脸信息进行存储，使其用于多个视频片段间的人脸聚类分析，避免内存过大问题。

年龄估计包括以下步骤：

S431、将裁剪出的人脸部分与人脸关键点信息进行对齐操作；

S432、利用年龄估计算法对对齐后的人脸部分进行年龄预测；

S433、将年龄预测结果进行存储。对单个视频人脸年龄信息存储，使其用于多个视频间的人脸聚类分析，避免内存过大问题。

S5、分别对各个候选精彩连续片段的图片质量、人脸检测与分析和年龄分配权重，并结合视频内容鉴黄结果，对各个候选精彩连续片段进行最终打分。具体包括以下步骤：

S51、基于人脸检测与分析结果和年龄预测结果，对各个原始视频片段中的各个候选精彩连续片段所抽取的各个视频帧的人脸特征进行聚类分析；

S52、根据聚类分析结果，确定标准比对特征；如果聚类分析结果中不存在用户的人脸特征，则选择样本中最多人脸特征的聚类中心作为标准比对特征，否则，选择用户的人脸特征作为标准比对特征；

S53、分别计算每个候选精彩连续片段中的各个人脸特征与标准比对特征的余弦相似度；

S54、计算各个候选精彩连续片段各个视频帧的余弦相似度的平均值，作为相似度评价分数；

S55、根据相似度评价分数、视频质量分数、人脸检测与分析和年龄对各个候选精彩连续片段进行打分，得到综合评价得分。

S6、基于最终打分结果和预设的分数阈值，对各个候选精彩连续片段进行排序，并根据排名结果筛选出多个最终精彩连续片段。包括以下步骤：

S61、基于最终打分结果和预设的分数阈值，对各个候选精彩连续片段进行排序，并根据排名结果筛选出多个最终精彩连续片段，包括：

S62、确定综合评价得分阈值；

S63、筛选综合评价得分大于综合评价得分阈值的候选精彩连续片段；如果各个候选精彩连续片段的综合评价得分均小于综合评价得分阈值，则选择在下一时间区间范围再进行筛选；

S64、按照相似度评价分数对筛选后的各个候选精彩连续片段进行排序，选择排名前n的视频片段作为最终精彩连续片段。如果候选精彩连续片段的个数小于n，则不进行后续视频精彩合集的生成。n为待生成的视频合集中所需的视频片段个数。

下面，对本发明方法进行试验验证。

试验方案：通过随机选取片段、本发明上月最佳场景、本发明生日场景生成精彩视频合集，发送给用户，并记录用户是否点击、是否保存，用于判断用户是否喜欢该精彩视频合集。试验结果如表1所示：

表1

视频场景	点击率	保存率
			随机选取片段	41％	31％
本发明上月最佳场景	72％	71％
			本发明生日场景	70％	64％

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于内容分析的视频精选合集的自动生成方法，其特征在于，包括：

2.根据权利要求1所述的一种基于内容分析的视频精选合集的自动生成方法，其特征在于，所述根据预设的筛选规则对原始视频进行初筛，所述筛选规则为：拍摄时间跨度满足预设的时间区间范围，所选取的视频时长满足预设的时长区间范围。

3.根据权利要求1所述的一种基于内容分析的视频精选合集的自动生成方法，其特征在于，利用KTS算法对初筛后的视频内容进行频域分析，并基于频域分析结果将初筛后的视频内容划分为多个连续片段，包括：

对初筛出的视频内容进行抽帧；

利用GoogLeNet提取所抽取的各个视频帧的频域特征；

4.根据权利要求1所述的一种基于内容分析的视频精选合集的自动生成方法，其特征在于，利用fscn算法对各个所述连续片段进行视频精彩度分析，获得多个候选精彩连续片段，包括：

利用视频摘要算法对各个所述连续片段进行打分；

5.根据权利要求1所述的一种基于内容分析的视频精选合集的自动生成方法，其特征在于，所述图片质量估计包括：

确定图像质量阈值；

筛选出得分结果大于所述图像质量阈值的所述视频帧图片。

6.根据权利要求5所述的一种基于内容分析的视频精选合集的自动生成方法，其特征在于，所述人脸检测与分析包括：

利用人脸检测模型确定人脸关键点信息；

利用人脸识别算法对裁剪的人脸部分进行特征提取；

根据提取的人脸特征确定人脸检测与分析；

将人脸检测与分析结果进行存储。

7.根据权利要求6所述的一种基于内容分析的视频精选合集的自动生成方法，其特征在于，所述年龄估计包括：

将裁剪出的人脸部分与所述人脸关键点信息进行对齐操作；

利用年龄估计算法对对齐后的人脸部分进行年龄预测；

将年龄预测结果进行存储。

8.根据权利要求7所述的一种基于内容分析的视频精选合集的自动生成方法，其特征在于，分别对各个所述候选精彩连续片段的图片质量、人脸检测与分析和年龄分配权重，并结合视频内容鉴别结果，对各个所述候选精彩连续片段进行最终打分，包括：

9.根据权利要求8所述的一种基于内容分析的视频精选合集的自动生成方法，其特征在于，基于最终打分结果和预设的分数阈值，对各个所述候选精彩连续片段进行排序，并根据排名结果筛选出多个最终精彩连续片段，包括：

确定综合评价得分阈值；

10.根据权利要求9所述的一种基于内容分析的视频精选合集的自动生成方法，其特征在于，如果所述各个所述候选精彩连续片段的综合评价得分均小于所述综合评价得分阈值，则选择在下一时间区间范围再进行筛选；