CN110139158A

CN110139158A - 视频以及子视频的生成方法、装置、电子设备

Info

Publication number: CN110139158A
Application number: CN201910541297.5A
Authority: CN
Inventors: 梁峰; 浦汉来
Original assignee: Shanghai Friction Network Technology Co Ltd
Current assignee: Shanghai Friction Network Technology Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-08-16
Anticipated expiration: 2039-06-21
Also published as: CN110139158B

Abstract

本发明实施例提供一种视频以及子视频的生成方法、装置、电子设备，所述视频生成方法包括：根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频；依据接收的用户指令对所述子视频进行选择和/或所在位置的顺序调整，生成视频。本发明实施例根据视频片段所包含的图像帧的标签，自动完成视频片段的选择与剪辑，令视频生成更加简便高效。

Description

视频以及子视频的生成方法、装置、电子设备

技术领域

本发明实施例涉及视频技术领域，尤其涉及一种视频以及子视频的生成方法、装置、电子设备。

背景技术

随着便携终端技术的发展，越来越多的用户使用视频拍摄工具来拍摄和生成视频，通过视频的发布进行社交分享。但是视频的生成通常需要专业的视频编辑技巧并应用专业软件进行，对于用户技能以及剪辑等视频编辑工具的要求很高。

为了满足用户进行视频编辑的需求，通常的视频编辑工具需要用户浏览操作多个拍摄获得的视频片段，针对选择的视频片段进行剪辑处理获得子视频，再对子视频进行视频合并，生成编辑后的视频。如果用户拍摄的视频片段数量众多，则用户需要耗费大量时间浏览视频片段，并手动对视频片段进行分类以及剪辑，才能获得子视频并合成视频。因此，利用现有的视频编辑工具无法简便高效的实现视频的生成，更无法在众多视频片段中进行选择与剪辑以合成质量更高的视频。

因此，如何简便高效的完成视频片段的选择与剪辑，成为亟待解决的技术问题。

发明内容

有鉴于此，本发明实施例提供一种视频以及子视频的生成方法、装置、电子设备，以解决或者部分解决上述问题。

根据本发明实施例的第一方面，提供了一种视频生成方法，所述方法包括：根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频；依据接收的用户指令对所述子视频进行选择和/或所在位置的顺序调整，生成视频。

根据本发明实施例的第二方面，提供了一种子视频生成方法，所述方法包括：根据所述至少一视频片段所包含的图像帧的内容设置标签，所述标签包括：对象、场景、图像质量；根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频。

根据本发明实施例的第三方面，提供了一种视频生成装置，所述装置包括：子视频生成模块，用于根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频；视频生成模块，用于依据接收的用户指令对所述子视频进行选择和/或所在位置的顺序调整，生成视频。

根据本发明实施例的第四方面，提供了一种子视频生成装置，所述装置包括：标签设定模块，用于根据所述至少一视频片段所包含的图像帧的内容设置标签，所述标签包括：对象、场景、图像质量；视频处理模块，用于根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频。

根据本发明实施例的第五方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面以及第二方面所述的方法对应的操作。

根据本发明实施例的第六方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面以及第二方面所述的方法。

根据本发明实施例根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频，从而依据接收的用户指令对所述子视频进行选择和/或所在位置的顺序调整，生成视频。因此，本发明实施例无需用户对至少一视频片段进行浏览，手动对浏览的视频片段进行剪辑，即可获得满足用户需求的子视频。本发明实施例根据视频片段所包含的图像帧的标签，自动完成视频片段的选择与剪辑，令视频生成更加简便高效。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例一的一种视频生成方法的步骤流程图；

图2为本发明实施例二的一种视频生成方法的步骤流程图；

图3为本发明实施例二中步骤S102流程图；

图4为本发明实施例三的一种子视频生成方法的步骤流程图；

图5为本发明实施例三中步骤S402流程图；

图6为本发明实施例四的一种视频生成装置的结构框图；

图7为本发明实施例五的一种视频生成装置的结构框图；

图8为本发明实施例五中子视频生成模块的结构框图；

图9为本发明实施例六的一种子视频生成装置的结构框图；

图10为本发明实施例六中视频处理模块的结构框图；

图11为本发明实施例七的一种电子设备的结构示意图；

图12为本发明一具体应用场景的方法步骤流程图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

图1为本发明实施例一的一种视频生成方法的步骤流程图。

本实施例的视频生成方法包括以下步骤：

步骤S102：根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频。

具体地，所述视频片段为用户拍摄或者从其他存储设备或者互联网获取的视频片段。所述视频片段由多个图像帧构成，本发明对视频片段的长度不进行限定。

本发明根据所述视频片段中的图像帧的标签对所述视频片段进行剪辑与聚类，避免了对整个视频片段的标签进行聚类计算的运算量，也便于对视频片段本身进行剪辑，简化了视频剪辑与聚类的流程与计算繁琐程度。

所述子视频为预设时长的子视频，用户也可通过用户指令对所述子视频的预设时长进行调整。

步骤S104：依据接收的用户指令对所述子视频进行选择和/或所在位置的顺序调整，生成视频。

在本发明一具体实现中，所述子视频通过所包含图像帧的标签进行聚类，用户通过用户指令在所述子视频中进行标签搜索，从而获得与搜索指令匹配的标签的图像帧所在的子视频，用户可以通过点选等用户指令选择满足需求的子视频。用户也可以通过拖拽等用户指令调整所述子视频所在位置的顺序。

本实施例的视频生成方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端(如平板电脑、手机等)和PC机等，也可以是一个安装在电子设备上的图像处理单元，例如安装在无人机控制器上的图像处理单元，安装在摄影装置上的图像处理单元等，该图像处理装置也可以是云台设备。

实施例二

图2为本发明实施例二的一种视频生成方法的步骤流程图。

本实施例的视频生成方法包括以下步骤：

步骤S101：根据所述至少一视频片段所包含的图像帧的内容设置标签，所述标签包括：对象、场景、图像质量。

在本发明一具体实现中，所述对象包括：人、动物、物体中至少其一。

具体地，所述对象是指占据画面1/4面积以上的主体。

在本发明一具体实现中，所述人的标签包括：人数、人的表情、身份信息。

由于用户对视频进行编辑主要考虑的图像帧内容为对象，尤其是以人为对象时候则会考量人的数量、表情以及身份。因此，本发明对图像帧包含的对象设置对象标签，并设置人的标签能够准确反映所述图像帧所包含的内容，根据标签进行的视频编辑能够满足用户进行视频编辑的需求。

具体地，所述标签是通过图像处理算法自动生成的。算法自动检测图像帧所属场景、图像帧中包含的对象以及图像美学得分，生成一个包含场景、对象、图像质量中至少其一描述的标签。

所述标签有两种，对象不为人时，标签包括场景、对象、图像质量；对象是人时，结合物体识别中关于人的识别、表情识别、人脸识别算法，生成一个描述人的标签：人数、人的表情、身份信息、场景、图像质量中至少其一。

因此，本发明设置的标签可以全面反映所述图像帧所包含的内容，令根据所述标签自动进行剪辑与聚类的子视频满足用户对视频进行编辑的需求。

图3为本发明实施例二中步骤S102流程图，所述步骤S102包括：

步骤S1021：将所述至少一视频片段所包含的图像帧的标签数字化，形成所述图像帧的特征数组。

具体地，为了便于计算处理以及提高处理效率，本发明将所述图像帧的标签数字化。例如：

场景预设20类：农田、机场、球场、海滩、建筑物、森林、高速公路、港口、住宅、公园、立交桥、停车场、河流、跑道、商场、咖啡馆、酒吧、餐厅、山、草地。数字化时，农田对应标签值为0，机场对应标签值为1，依次类推，草地对应标签值为19，生成一个描述场景的数字。

对象预设3类：人、猫、狗。人对应标签值为0，猫对应标签值为1，狗对应标签值为2。

物体识别算法识别出对象为人以及不为人两种图像。对象为人时，标签为：人数、表情、身份、场景、图像质量中至少其一。对象不为人时，标签为：场景、对象、图像质量中至少其一。

图像质量标签值为图像美学算法打分值。所采用的图像美学算法为通用技术，在此不再赘述。

步骤S1022：根据所述特征数组进行特征向量归一化，采用聚类算法将特征相近似的图像帧聚类形成预设时长的子视频。

具体地，本发明根据所述特征数组进行特征向量归一化，采用k-means聚类算法，将特征相近的图像帧挑选出来，形成预设时长的子视频。

所述子视频为预设时长的子视频，用户也可通过用户指令对所述子视频的预设时长进行调整，预设时长默认为30秒。

实施例三

图4为本发明实施例三的一种子视频生成方法的步骤流程图。

本实施例的子视频生成方法包括以下步骤：

步骤S401：根据所述至少一视频片段所包含的图像帧的内容设置标签，所述标签包括：对象、场景、图像质量。

具体地，所述对象是指占据画面1/4面积以上的主体。

步骤S402：根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频。

图5为本发明实施例三中步骤S402流程图，所述步骤S403包括：

步骤S4021：将所述至少一视频片段所包含的图像帧的标签数字化，形成所述图像帧的特征数组。

步骤S4022：根据所述特征数组进行特征向量归一化，采用聚类算法将特征相近似的图像帧聚类形成预设时长的子视频。

本实施例的子视频生成方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端(如平板电脑、手机等)和PC机等，也可以是一个安装在电子设备上的图像处理单元，例如安装在无人机控制器上的图像处理单元，安装在摄影装置上的图像处理单元等，该图像处理装置也可以是云台设备。

实施例四

图6为本发明实施例四的一种视频生成装置的结构框图。

本实施例的视频生成装置包括：

子视频生成模块601，用于根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频。

视频生成模块602，用于依据接收的用户指令对所述子视频进行选择和/或所在位置的顺序调整，生成视频。

本实施例的视频生成装置可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端(如平板电脑、手机等)和PC机等，也可以是一个安装在电子设备上的图像处理单元，例如安装在无人机控制器上的图像处理单元，安装在摄影装置上的图像处理单元等，该图像处理装置也可以是云台设备。

实施例五

图7为本发明实施例五的一种视频生成装置的结构框图。

本实施例的视频生成装置包括：

标签设置模块701，用于根据所述至少一视频片段所包含的图像帧的内容设置标签，所述标签包括：对象、场景、图像质量。

子视频生成模块702，用于根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频。

视频生成模块703，用于依据接收的用户指令对所述子视频进行选择和/或所在位置的顺序调整，生成视频。

具体地，所述对象是指占据画面1/4面积以上的主体。

图8为本发明实施例五中子视频生成模块702的结构框图，所述子视频生成模块702包括：

数组形成单元7021，用于将所述至少一视频片段所包含的图像帧的标签数字化，形成所述图像帧的特征数组。

聚类计算单元7022，用于根据所述特征数组进行特征向量归一化，采用聚类算法将特征相近似的图像帧聚类形成预设时长的子视频。

实施例六

图9为本发明实施例六的一种子视频生成装置的结构框图。

本实施例的子视频生成装置包括：

标签设定模块901，用于根据所述至少一视频片段所包含的图像帧的内容设置标签，所述标签包括：对象、场景、图像质量。

视频处理模块902，用于根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频。

具体地，所述对象是指占据画面1/4面积以上的主体。

图10为本发明实施例六中视频处理模块902的结构框图，所述视频处理模块902包括：

特征确定单元9021，用于将所述至少一视频片段所包含的图像帧的标签数字化，形成所述图像帧的特征数组。

聚类处理单元9022，用于根据所述特征数组进行特征向量归一化，采用聚类算法将特征相近似的图像帧聚类形成预设时长的子视频。

本实施例的子视频生成装置可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端(如平板电脑、手机等)和PC机等，也可以是一个安装在电子设备上的图像处理单元，例如安装在无人机控制器上的图像处理单元，安装在摄影装置上的图像处理单元等，该图像处理装置也可以是云台设备。

实施例七

图11为本发明实施例七的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图11所示，该电子设备可以包括：处理器(processor)1102、通信接口(Communications Interface)1104、存储器(memory)1106、以及通信总线1108。

其中：

处理器1102、通信接口1104、以及存储器1106通过通信总线1108完成相互间的通信。

通信接口1104，用于与其它电子设备如终端设备或服务器进行通信。

处理器1102，用于执行程序1110，具体可以执行上述下载应用的方法实施例中的相关步骤。

具体地，程序1110可以包括程序代码，该程序代码包括计算机操作指令。

处理器1102可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器1106，用于存放程序1110。存储器1106可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

程序1110具体可以用于使得处理器1102执行以下操作：根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频；依据接收的用户指令对所述子视频进行选择和/或所在位置的顺序调整，生成视频。

在一种可选的实施方式中，程序1110还用于根据所述至少一视频片段所包含的图像帧的内容设置标签，所述标签包括：对象、场景、图像质量。

在一种可选的实施方式中，所述对象包括：人、动物、物体中至少其一。

在一种可选的实施方式中，所述人的标签包括：人数、人的表情、身份信息。

在一种可选的实施方式中，程序1110还用于将所述至少一视频片段所包含的图像帧的标签数字化，形成所述图像帧的特征数组；根据所述特征数组进行特征向量归一化，采用聚类算法将特征相近似的图像帧聚类形成预设时长的子视频。

程序1110具体可以用于使得处理器1102执行以下操作：根据所述至少一视频片段所包含的图像帧的内容设置标签，所述标签包括：对象、场景、图像质量；根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频。

为进一步说明本发明实现，下面结合具体应用场景进行进一步说明。

参见图12，本应用场景为获得用户拍摄的至少一视频片段，具体方法包括：

1201、采用图像处理、深度学习的方法，对所述视频片段中的图像帧进行分析和描述，获得所述图像帧的标签。

所述分析围绕对象为人进行，采用物体识别、人脸识别、表情识别、场景分类、物体分类、图像美学评估算法分别生成图像帧中的人数、人的身份信息、人的表情、场景、物体和图像质量作为标签。

所述物体识别包括：考虑速度和精度的综合需求，采用轻量级神经网络mobilenetV2-SSD对视频片段中的图像帧进行物体识别，并记录视频片段中的图像帧中的人数。

所述人脸识别包括：通过人脸识别描述人的身份信息。首先建立一个模板人脸库，存储人脸图像信息和对应的身份信息。然后，通过人脸检测算法DSFD(Dual Shot FaceDetector)检测出图像中是否有人脸以及人脸框位置。然后通过MTCNN的o-net网络检测出人脸关键点坐标。根据关键点坐标进行仿射变换将人脸调整到预定大小和形态。将调整后的人脸图像采用faceboxes网络，得到128维人脸特征；同样的，对模板库中的人脸图像进行人脸检测、对齐、特征描述将视频帧中检测到的人脸进行特征比对，选出相似度最高且大于设定阈值的人脸对应的身份信息，作为检测到的人的身份信息。

所述表情识别包括：采用用smilenet算法将对齐后的人脸进行表情识别，得到人的表情标签。

所述场景分类包括：采用Inception-ResNet-V2算法提取视频片段中的图像帧中的场景信息，得到场景标签。

所述物体分类包括：采用mobilenetV2算法进行视频片段中的图像帧物体分类，得到物体类别标签。

所述图像美学评估包括：采用ILGNet(Inception Modules with ConnectedLocal and Global Featuresfor Efficient Image Aesthetic Quality Classificationusing Domain Adaptation)给出图像美学质量打分，作为图像质量标签。

1202、将所述至少一视频片段所包含的图像帧的标签数字化，形成所述图像帧的特征数组。

1203、本发明根据所述特征数组进行特征向量归一化，采用k-means聚类算法，将特征相近的图像帧挑选出来，形成30秒的子视频。

1204、依据接收的用户指令对所述子视频进行选择和所在位置的顺序调整，生成视频。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的下载应用的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频；

依据接收的用户指令对所述子视频进行选择和/或所在位置的顺序调整，生成视频。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述至少一视频片段所包含的图像帧的内容设置标签，所述标签包括：对象、场景、图像质量。

3.根据权利要求2所述的方法，其特征在于，所述对象包括：人、动物、物体中至少其一。

4.根据权利要求3所述的方法，其特征在于，所述人的标签包括：人数、人的表情、身份信息。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频包括：

将所述至少一视频片段所包含的图像帧的标签数字化，形成所述图像帧的特征数组；

根据所述特征数组进行特征向量归一化，采用聚类算法将特征相近似的图像帧聚类形成预设时长的子视频。

6.一种子视频生成方法，其特征在于，所述方法包括：

根据所述至少一视频片段所包含的图像帧的内容设置标签，所述标签包括：对象、场景、图像质量；

根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频。

7.根据权利要求6所述的方法，其特征在于，所述对象包括：人、动物、物体中至少其一。

8.根据权利要求7所述的方法，其特征在于，所述人的标签包括：人数、人的表情、身份信息。

9.根据权利要求6-8中任一项所述的方法，其特征在于，所述根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频包括：

10.一种视频生成装置，其特征在于，所述装置包括：

子视频生成模块，用于根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频；

视频生成模块，用于依据接收的用户指令对所述子视频进行选择和/或所在位置的顺序调整，生成视频。

11.一种子视频生成装置，其特征在于，所述装置包括：

标签设定模块，用于根据所述至少一视频片段所包含的图像帧的内容设置标签，所述标签包括：对象、场景、图像质量；

视频处理模块，用于根据至少一视频片段所包含的图像帧的标签，对所述视频片段进行剪辑与聚类获得子视频。

12.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-9中任一项所述的方法对应的操作。

13.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。