CN108900905A

CN108900905A - 一种视频剪辑方法及装置

Info

Publication number: CN108900905A
Application number: CN201810895062.1A
Authority: CN
Inventors: 陈长伟; 杨晓亮; 田丹
Original assignee: Beijing Future Media Polytron Technologies Inc
Current assignee: Beijing Future Media Polytron Technologies Inc
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2018-11-27

Abstract

本发明提供了一种视频剪辑方法及装置，将待剪辑视频拆分为视频帧；并将所述视频帧输入预先训练得到的卷积神经网络；通过所述卷积神经网络对所述视频帧进行处理，得到处理结果；根据所述处理结果，生成剪辑规则；接收用户输入的剪辑对象；根据用户输入的剪辑对象以及所述剪辑规则，对所述待剪辑视频进行剪辑。由于采用卷积神经网络对待剪辑视频进行处理并生成剪辑规则，基于剪辑规则即可完成视频剪辑，而不用人工预览待剪辑视频后生成剪辑规则，并基于剪辑规则完成视频剪辑。因此，避免了由于人为因素导致的剪辑效率低以及准确性低的问题，且可以实现批量化地视频剪辑。

Description

一种视频剪辑方法及装置

技术领域

本发明属于互联网技术领域，尤其涉及一种视频剪辑方法及装置。

背景技术

互联网视频在最近几年流量大，其中，在互联网上传播的时长在几分钟以内的短视频，由于适合在移动状态和短时休闲状态下观看，深受各大平台以及网络用户的青睐。

为了提高短视频的点播率、网络用户的活跃度以及广告投放率，需要以网络用户的喜好为主，生成短视频。

现有生成短视频的方式为基于视频剪辑技术，人工将待剪辑视频预览一遍，然后基于人为对待剪辑视频的理解进行视频的剪辑拼接，得到短视频。

由于现有视频剪辑过程中，需要人工预览每一个待剪辑视频，不仅视频剪辑效率低且由于存在人为操作误差导致视频剪辑准确性低。

发明内容

有鉴于此，本发明的目的在于提供一种视频剪辑方法及装置，以解决现有视频剪辑过程中，需要人工预览每一个待剪辑视频，导致视频剪辑效率低、准确性低的问题。

技术方案如下：

本发明提供一种视频剪辑方法，包括：

将待剪辑视频拆分为视频帧；

将所述视频帧输入预先训练得到的卷积神经网络；

通过所述卷积神经网络对所述视频帧进行处理，得到处理结果；

根据所述处理结果，生成剪辑规则；其中，所述剪辑规则中包括剪辑对象以及剪辑对象在所述待剪辑视频中出现的起始时间和结束时间；

接收用户输入的剪辑对象；

根据用户输入的剪辑对象以及所述剪辑规则，对所述待剪辑视频进行剪辑。

优选地，所述卷积神经网络通过以下方法训练得到：

采集多个视频内容；

对采集到的视频内容进行分类打标，得到对应不同剪辑模型的训练样本集；

将所述训练样本集输入所述卷积神经网络；

基于反向传播算法以及输入的训练样本集，训练得到所述卷积神经网络的网络参数。

优选地，所述将所述视频帧输入预先训练得到的卷积神经网络包括：

对每一视频帧进行去均值、归一化以及PCA/白化的预处理，得到输入数据；

将所述输入数据输入到预先训练得到的卷积神经网络。

优选地，所述根据用户输入的剪辑对象以及所述剪辑规则，对所述待剪辑视频进行剪辑包括：

从所述剪辑规则中获取所述剪辑对象在所述待剪辑视频中出现的起始时间和结束时间；

以所述起始时间为剪辑初始位置，以所述结束时间为剪辑终止位置，对所述待剪辑视频进行剪辑。

优选地，所述根据所述处理结果，生成剪辑规则之后，还包括：

将所述剪辑规则显示在用户界面。

优选地，所述通过所述卷积神经网络对所述视频帧进行处理，得到处理结果之后，还包括：

根据所述待剪辑视频以及处理结果，对预先训练得到的卷积神经网络进行优化。

本发明还提供了一种视频剪辑装置，包括：

拆分单元，用于将待剪辑视频拆分为视频帧；

输入单元，用于将所述视频帧输入预先训练得到的卷积神经网络；

处理单元，用于通过所述卷积神经网络对所述视频帧进行处理，得到处理结果；

生成单元，用于根据所述处理结果，生成剪辑规则；其中，所述剪辑规则中包括剪辑对象以及剪辑对象在所述待剪辑视频中出现的起始时间和结束时间；

接收单元，用于接收用户输入的剪辑对象；

剪辑单元，用于根据用户输入的剪辑对象以及所述剪辑规则，对所述待剪辑视频进行剪辑。

优选地，还包括：

预处理单元，用于对每一视频帧进行去均值、归一化以及PCA/白化的预处理，得到输入数据。

优选地，所述剪辑单元包括：

获取子单元，用于从所述剪辑规则中获取所述剪辑对象在所述待剪辑视频中出现的起始时间和结束时间；

剪辑子单元，用于以所述起始时间为剪辑初始位置，以所述结束时间为剪辑终止位置，对所述待剪辑视频进行剪辑。

优选地，还包括：显示单元，用于将所述剪辑规则显示在用户界面。

与现有技术相比，本发明提供的上述技术方案具有如下优点：

从上述技术方案可知，本申请中将待剪辑视频拆分为视频帧；并将所述视频帧输入预先训练得到的卷积神经网络；通过所述卷积神经网络对所述视频帧进行处理，得到处理结果；根据所述处理结果，生成剪辑规则；其中，所述剪辑规则中包括剪辑对象以及剪辑对象在所述待剪辑视频中出现的起始时间和结束时间；接收用户输入的剪辑对象；根据用户输入的剪辑对象以及所述剪辑规则，对所述待剪辑视频进行剪辑。由于采用卷积神经网络对待剪辑视频进行处理并生成剪辑规则，基于剪辑规则即可完成视频剪辑，而不用人工预览待剪辑视频后生成剪辑规则，并基于剪辑规则完成视频剪辑。因此，避免了由于人为因素导致的剪辑效率低以及准确性低的问题，且可以实现批量化地进行视频剪辑。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频剪辑方法的流程图；

图2是本发明实施例提供的另一种视频剪辑方法的流程图；

图3是本发明实施例提供的一种视频剪辑装置的结构示意图；

图4是本发明实施例提供的另一种视频剪辑装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例公开了一种视频剪辑方法，参见图1，该实施例包括以下步骤：

S101、将待剪辑视频拆分为视频帧；

待剪辑视频是由多帧视频帧组成的，视频帧可以认为是图像，在进行剪辑时是以图像为基础，识别图像中是否存在需要剪辑的对象，在识别图像中存在剪辑的对象，如人脸、广告标题等，则从待剪辑视频中逐一提取存在需要剪辑的对象的视频帧，然后将提取到的视频帧拼接在一起，组成新的短视频。

基于此，本实施例中获取到待剪辑视频后，对待剪辑视频进行拆分，得到多帧视频帧。

S102、将所述视频帧输入预先训练得到的卷积神经网络；

卷积神经网络是深度学习的一种网络结构，由输入层、卷积层、池化层、全连接层构成。经由输入层输入到卷积神经网络的内容是图像或者矩阵。卷积层以及池化层的处理操作都是以图像、矩阵为待处理对象。

基于此，本实施例中将所述视频帧输入卷积神经网络时，需要预先对视频帧进行处理，以得到卷积神经网络可以识别的输入数据。

具体地，本实施例中对每一视频帧进行去均值、归一化以及PCA/白化的预处理，得到输入数据；并将所述输入数据输入到预先训练得到的卷积神经网络。其中，输入数据为图像。

S103、通过所述卷积神经网络对所述视频帧进行处理，得到处理结果；

输入的数据经过卷积神经网络的N个卷积层、池化层以及全连接层逐层计算，得到计算结果，其中，上一层的输出作为下一层的输入特征，N为大于等于1的整数。然后将所述计算结果输入到分类器中，以输出分类结果。

具体地，首先，卷积层对输入数据即视频帧进行卷积计算，以获取到视频帧的特征。由于卷积层的卷积计算具有局部关联特性，因此可以保证同一层学习网络的关联性。

然后，将获取到的特征输入到下一层的池化层中，池化层从卷积层获取到的特征中提取特征并输入到下一层结构中，以减少数据处理量，而且可以防止过拟合同时增强系统的鲁棒性。其中，经过池化层处理后，卷积神经网络的下一层结构可以仍然为卷积层，也可以为全连接层。

若经过一层卷积层以及一层池化层后，下一层结构为全连接层则N＝1，若经过一层卷积层以及一层池化层后，下一层结构仍然为卷积层，则N的取值为卷积层的迭代次数。需要注意的是，每一层卷积层相邻的下一层结构均为池化层，即卷积神经网络中卷积层的层数与池化层的层数是相同的。

在实际应用中，根据迭代概率确定N的取值。具体地，如果经过一层学习网络得到的结果准确性概率小于预设阈值，则增加一层学习网络，并将上一层学习网络的结果作为下一层学习网络的输入，以此类推，直至得到的结果准确性概率大于或等于阈值，构建得到多层学习网络。

再经过多层学习网络，将特征输入到全连接层，通过全连接层将特征融合拼接，最后连接分类器，完成视频帧的分类。本实施例中分类器为softmax。

本实施例中采用预先训练得到的卷积神经网络对经过预处理后的多帧视频帧进行处理，完成对多帧视频帧的分类。每一类视频帧表示视频帧中包括相同的剪辑对象，如人物、广告标题等。

S104、根据所述处理结果，生成剪辑规则；其中，所述剪辑规则中包括剪辑对象以及剪辑对象在所述待剪辑视频中出现的起始时间和结束时间；

通过卷积神经网络对待剪辑视频的每一帧视频进行处理，得到每一帧视频的特征。即通过卷积神经网络可以充分理解待剪辑视频中的每一帧视频，进而可以确定每一帧视频中包括的剪辑对象，以及根据待剪辑视频的总体可以确定某一特定剪辑视频出现的起始时间和结束时间，并生成剪辑规则。

相较于现有技术中需要人工将待剪辑视频从头到尾预览一遍，以获知剪辑对象在待剪辑视频中出现的起始时间和结束时间，进而才能够基于获知的剪辑对象在待剪辑视频中出现的起始时间和结束时间，完成视频剪辑的方案而言，本实施例中采用卷积神经网络实现对待剪辑视频的处理并生成剪辑规则，而不用人工预览待剪辑视频后生成剪辑规则，并基于剪辑规则完成视频剪辑。因此，避免了由于人为因素导致的剪辑效率低以及准确性低的问题。

S105、接收用户输入的剪辑对象；

根据剪辑需求，输入剪辑对象。如某个特定的人物名称、某个广告标题等。其中，输入的剪辑对象与经过卷积神经网络处理后得到的分类结果相对应。如，分类结果中包括文字、人物、特定图像，则对应输入的剪辑对象可以为特定文字、特定人物、特定图像。

S106、根据用户输入的剪辑对象以及所述剪辑规则，对所述待剪辑视频进行剪辑。

从所述剪辑规则中获取所述剪辑对象在所述待剪辑视频中出现的起始时间和结束时间；以所述起始时间为剪辑初始位置，以所述结束时间为剪辑终止位置，对所述待剪辑视频进行剪辑。

如用户输入人物名称，则从剪辑规则中获取与输入的人物名称对应的人物在待剪辑视频中出现的起始时间和结束时间，并以人物出现的起始时间为初始位置，以人物出现的结束时间为终止位置，对视频进行剪辑。其中，本步骤中描述的剪辑对象在待剪辑视频中出现的起始时间以及剪辑对象在待剪辑视频中出现的终止时间可以包括多个，每次对剪辑对象进行剪辑时需要逐一获取剪辑对象每次持续出现的起始时间以及终止时间，以完成视频剪辑。

示例性的，从剪辑规则中获取到人物A在待剪辑视频中出现的第一次起始时间为1分20秒，并在2分时终止出现，第二次起始时间为3分40秒，并在4分50秒终止出现。那么，基于剪辑规则对人物A进行剪辑包括提取待剪辑视频中1分20秒开始到2分结束时的视频，并提取待剪辑视频中3分40秒开始到4分50秒结束时的视频，最后将提取到的两段视频拼接在一起，得到人物A的短视频。

从上述技术方案可知，本实施例中将待剪辑视频拆分为视频帧；并将所述视频帧输入预先训练得到的卷积神经网络；通过所述卷积神经网络对所述视频帧进行处理，得到处理结果；根据所述处理结果，生成剪辑规则；其中，所述剪辑规则中包括剪辑对象以及剪辑对象在所述待剪辑视频中出现的起始时间和结束时间；接收用户输入的剪辑对象；根据用户输入的剪辑对象以及所述剪辑规则，对所述待剪辑视频进行剪辑。由于本实施例中采用卷积神经网络对待剪辑视频进行处理并生成剪辑规则，基于剪辑规则即可完成视频剪辑，而不用人工预览待剪辑视频后生成剪辑规则，并基于剪辑规则完成视频剪辑。因此，避免了由于人为因素导致的剪辑效率低以及准确性低的问题，且可以实现批量化地进行视频剪辑。

本实施例中提供了另一种视频剪辑方法，参见图2所示，该实施例包括以下步骤：

S201、采集多个视频内容；

基于爬虫数据挖掘和视频信息资料库的大量视频信息建立内容资源中心，从内容资源中心中采集多个视频内容。

S202、对采集到的视频内容进行分类打标，得到对应不同剪辑模型的训练样本集；

对采集到的视频内容进行分类，并对分类后的视频内容添加标签。如，文字标签、人物名称标签、人物情绪标签等。在对采集到的视频内容进行分类打标后，可以进一步判断哪类视频内容所包括的样本数量少，可以再次从内容资源中心采集与样本数量少的视频内容对应的视频内容，以扩充此类视频内容的样本数量。

S203、将所述训练样本集输入所述卷积神经网络；

卷积神经网络的初始架构可以仅包括输入层、一层卷积层、一层池化层、全连接层，将训练样本输入到初始架构的卷积神经网络中。

S204、基于反向传播算法以及输入的训练样本集，训练得到所述卷积神经网络的网络参数；

采用训练样本对卷积神经网络进行训练，以使得其能够学习到对视频内容的分类。

S205、将待剪辑视频拆分为视频帧；

S206、将所述视频帧输入预先训练得到的卷积神经网络；

S207、通过所述卷积神经网络对所述视频帧进行处理，得到处理结果；

本实施例中，步骤S207之后还包括：根据所述待剪辑视频以及处理结果，对预先训练得到的卷积神经网络进行优化，以不断完善卷积神经网络。提高卷积神经网络对待剪辑视频的处理结果的准确性，进而提高视频剪辑的准确性。

S208、根据所述处理结果，生成剪辑规则；其中，所述剪辑规则中包括剪辑对象以及剪辑对象在所述待剪辑视频中出现的起始时间和结束时间；

本实施例中步骤S205-S208的实现方式与上一实施例中步骤S101-S104的实现方式类似，此处不再赘述。

在本实施例中，步骤S208之后还包括：将所述剪辑规则显示在用户界面。示例性的，以文本形式将剪辑规则显示在用户界面，使得剪辑人员根据显示在用户界面上的剪辑规则，自定义剪辑对象并完成对自定义剪辑对象的剪辑。

本实施例中，通过卷积神经网络对待剪辑视频进行处理得到剪辑规则，并将剪辑规则以结构化、标签化的文本提供给剪辑人员，使得剪辑人员不用在预览待剪辑视频即可实现对待剪辑视频的剪辑。

S209、接收用户输入的剪辑对象；

S210、根据用户输入的剪辑对象以及所述剪辑规则，对所述待剪辑视频进行剪辑。

本实施例中步骤S209-S210的实现方式与上一实施例中步骤S105-S106的实现方式类似，此处不再赘述。

从上述技术方案可知，本实施例中将待剪辑视频拆分为视频帧；并将所述视频帧输入预先训练得到的卷积神经网络；通过所述卷积神经网络对所述视频帧进行处理，得到处理结果；根据所述处理结果，生成剪辑规则；其中，所述剪辑规则中包括剪辑对象以及剪辑对象在所述待剪辑视频中出现的起始时间和结束时间；接收用户输入的剪辑对象；根据用户输入的剪辑对象以及所述剪辑规则，对所述待剪辑视频进行剪辑。由于本实施例中采用卷积神经网络对待剪辑视频进行处理并生成剪辑规则，基于剪辑规则即可完成视频剪辑，而不用人工预览待剪辑视频后生成剪辑规则，并基于剪辑规则完成视频剪辑。因此，避免了由于人为因素导致的剪辑效率低以及准确性低的问题，且可以实现批量化地进行视频剪辑。同时，不断利用待剪辑视频优化卷积神经网络，不断完善卷积神经网络，提高了卷积神经网络对待剪辑视频的处理结果的准确性，进而提高了视频剪辑的准确性。

对应上述实施例公开的视频剪辑方法，本实施例公开了一种视频剪辑装置，该视频剪辑装置结构示意图请参阅图3所示，本实施例中视频剪辑装置包括：

拆分单元301、输入单元302、处理单元303、生成单元304、接收单元305和剪辑单元306；

拆分单元301，用于将待剪辑视频拆分为视频帧；

输入单元302，用于将所述视频帧输入预先训练得到的卷积神经网络；

处理单元303，用于通过所述卷积神经网络对所述视频帧进行处理，得到处理结果；

生成单元304，用于根据所述处理结果，生成剪辑规则；其中，所述剪辑规则中包括剪辑对象以及剪辑对象在所述待剪辑视频中出现的起始时间和结束时间；

接收单元305，用于接收用户输入的剪辑对象；

剪辑单元306，用于根据用户输入的剪辑对象以及所述剪辑规则，对所述待剪辑视频进行剪辑。

可选地，剪辑单元306包括：

获取子单元和剪辑子单元；

本实施例还公开了另一种视频剪辑装置，该视频剪辑装置结构示意图请参阅图4所示，相较于图3所示的视频剪辑装置，本实施例中视频剪辑装置还包括：

预处理单元401和显示单元402；

预处理单元401，用于对每一视频帧进行去均值、归一化以及PCA/白化的预处理，得到输入数据；

显示单元402，用于将所述剪辑规则显示在用户界面。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的装置而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频剪辑方法，其特征在于，包括：

将待剪辑视频拆分为视频帧；

将所述视频帧输入预先训练得到的卷积神经网络；

接收用户输入的剪辑对象；

2.根据权利要求1所述的视频剪辑方法，其特征在于，所述卷积神经网络通过以下方法训练得到：

采集多个视频内容；

将所述训练样本集输入所述卷积神经网络；

3.根据权利要求1或2任意一项所述的视频剪辑方法，其特征在于，所述将所述视频帧输入预先训练得到的卷积神经网络包括：

将所述输入数据输入到预先训练得到的卷积神经网络。

4.根据权利要求1或2任意一项所述的方法，其特征在于，所述根据用户输入的剪辑对象以及所述剪辑规则，对所述待剪辑视频进行剪辑包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述处理结果，生成剪辑规则之后，还包括：

将所述剪辑规则显示在用户界面。

6.根据权利要求1或2任意一项所述的方法，其特征在于，所述通过所述卷积神经网络对所述视频帧进行处理，得到处理结果之后，还包括：

7.一种视频剪辑装置，其特征在于，包括：

拆分单元，用于将待剪辑视频拆分为视频帧；

接收单元，用于接收用户输入的剪辑对象；

8.根据权利要求7所述的视频剪辑装置，其特征在于，还包括：

9.根据权利要求7或8任意一项所述的装置，其特征在于，所述剪辑单元包括：

10.根据权利要求7或8任意一项所述的装置，其特征在于，还包括：显示单元，用于将所述剪辑规则显示在用户界面。