CN113079326A

CN113079326A - 视频剪辑方法及装置、存储介质

Info

Publication number: CN113079326A
Application number: CN202010009894.6A
Authority: CN
Inventors: 桂清利
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2021-07-06

Abstract

本公开提供了一种视频剪辑方法及装置、存储介质，其中，所述方法包括：接收终端上传的多帧第一图像；对多帧所述第一图像进行剪辑，生成包括多帧第二图像的目标视频流；返回所述目标视频流给所述终端。本公开无需用户手动进行视频剪辑，可以由云端自动完成视频剪辑并生成最终的目标视频流，提高了目标视频流的剪辑质量，智能化程度高。

Description

视频剪辑方法及装置、存储介质

技术领域

本公开涉及人工智能领域，尤其涉及视频剪辑方法及装置、存储介质。

背景技术

近年来随着短视频的兴起，通过手持终端进行视频拍摄的功能在快速演进，越来越多的用户开始尝试用视频的方式记录生活并与亲朋好友分享。但视频拍摄的技巧比照片拍摄的技巧要求更高，且后续视频剪辑更加需要专业的技巧。

发明内容

有鉴于此，本公开提供了一种视频剪辑方法及装置、存储介质，以解决相关技术中的不足。

根据本公开实施例的第一方面，提供一种视频剪辑方法，所述方法用于云端，所述方法包括：

接收终端上传的多帧第一图像；

对多帧所述第一图像进行剪辑，生成包括多帧第二图像的目标视频流；

返回所述目标视频流给所述终端。

可选地，所述对多帧所述第一图像进行剪辑，生成包括多帧第二图像的目标视频流，包括：

对多帧所述第一图像进行内容识别，根据识别出的每帧所述第一图像所对应的内容信息，在多帧所述第一图像中选取多帧所述第二图像；

基于多帧所述第二图像生成所述目标视频流。

可选地，所述对多帧所述第一图像进行内容识别，根据识别出的每帧所述第一图像所对应的内容信息，在多帧所述第一图像中选取多帧所述第二图像，包括：

将多帧所述第一图像输入第一神经网络，获得所述第一神经网络输出的每帧所述第一图像所对应的内容信息；其中，所述第一神经网络是预先训练好的用于对图像进行内容识别的神经网络；

根据每帧所述第一图像所对应的内容信息，确定多帧所述第一图像对应的目标主题内容；

根据所述目标主题内容和每帧所述第一图像所对应的内容信息，在多帧所述第一图像中删除满足指定剪辑条件的第三图像，获得多帧所述第二图像。

可选地，所述内容信息包括以下至少一项：

每个元素的元素内容、属于图像主体的第一元素、属于图像陪体的第二元素、所述第一元素与所述第二元素之间的关系、图像分辨率和曝光率；

所述指定剪辑条件包括以下至少一项：

所述第一元素所对应的元素内容与所述目标主题内容不匹配；

所述第一元素所对应的元素内容缺失；

所述第一元素与所述第二元素之间不属于主从关系；

所述图像分辨率低于预设图像分辨率；

所述曝光率大于第一预设曝光率或小于第二预设曝光率。

可选地，所述基于多帧所述第二图像生成目标视频流，包括：

确定用于与多帧所述第二图像进行混合剪辑的目标剪辑关联信息；

将多帧所述第二图像和所述目标剪辑信息输入第二神经网络，由所述第二神经网络生成所述目标视频流；其中，所述第二神经网络是预先训练好的用于基于输入的多帧图像和剪辑关联信息制作视频流的神经网络。

可选地，所述确定用于与多帧所述第二图像进行混合剪辑的目标剪辑关联信息，包括：

根据预设的主题内容与剪辑关联信息之间的第一对应关系，确定与多帧所述第一图像对应的目标主题内容匹配的所述目标剪辑关联信息；或

根据预设的剪辑要求与剪辑关联信息之间的第二对应关系，确定与所述终端上传的目标剪辑要求匹配的所述目标剪辑关联信息。

可选地，所述方法还包括：

接收所述终端上传的回传指示信息；

所述返回所述目标视频流给所述终端，包括：

在所述回传指示信息所指示的第一时间点，返回所述目标视频流给所述终端。

根据本公开实施例的第二方面，提供一种视频剪辑方法，所述方法用于终端，所述方法包括：

确定多帧第一图像；

将多帧所述第一图像上传到云端，由所述云端对多帧所述第一图像进行剪辑，生成包括多帧第二图像的目标视频流；

接收所述云端返回的所述目标视频流。

可选地，所述方法还包括：

确定对所述目标视频流进行剪辑的目标剪辑条件；

上传所述目标剪辑条件到所述云端。

可选地，所述方法还包括：

上传用于指示所述云端返回所述目标视频流的第一时间点的回传指示信息到所述云端。

可选地，所述将多帧所述第一图像上传到云端，包括：

确定上传多帧所述第一图像的第二时间点；

在到达所述第二时间点时，将多帧所述第一图像上传到所述云端。

根据本公开实施例的第三方面，提供一种视频剪辑装置，所述装置用于云端，所述装置包括：

第一接收模块，被配置为接收终端上传的多帧第一图像；

视频剪辑模块，被配置为对多帧所述第一图像进行剪辑，生成包括多帧第二图像的目标视频流；

第一发送模块，被配置为返回所述目标视频流给所述终端。

可选地，所述视频剪辑模块包括：

选取子模块，被配置为对多帧所述第一图像进行内容识别，根据识别出的每帧所述第一图像所对应的内容信息，在多帧所述第一图像中选取多帧所述第二图像；

生成子模块，被配置为基于多帧所述第二图像生成所述目标视频流。

可选地，所述选取子模块包括：

获取单元，被配置为将多帧所述第一图像输入第一神经网络，获得所述第一神经网络输出的每帧所述第一图像所对应的内容信息；其中，所述第一神经网络是预先训练好的用于对图像进行内容识别的神经网络；

第一确定单元，被配置为根据每帧所述第一图像所对应的内容信息，确定多帧所述第一图像对应的目标主题内容；

选取单元，被配置为根据所述目标主题内容和每帧所述第一图像所对应的内容信息，在多帧所述第一图像中删除满足指定剪辑条件的第三图像，获得多帧所述第二图像。

可选地，所述内容信息包括以下至少一项：

所述指定剪辑条件包括以下至少一项：

所述第一元素所对应的元素内容缺失；

所述第一元素与所述第二元素之间不属于主从关系；

所述图像分辨率低于预设图像分辨率；

所述曝光率大于第一预设曝光率或小于第二预设曝光率。

可选地，所述生成子模块包括：

第二确定单元，被配置为确定用于与多帧所述第二图像进行混合剪辑的目标剪辑关联信息；

生成单元，被配置为将多帧所述第二图像和所述目标剪辑信息输入第二神经网络，由所述第二神经网络生成所述目标视频流；其中，所述第二神经网络是预先训练好的用于基于输入的多帧图像和剪辑关联信息制作视频流的神经网络。

可选地，所述第二确定单元包括：

第一确定子单元，被配置为根据预设的主题内容与剪辑关联信息之间的第一对应关系，确定与多帧所述第一图像对应的目标主题内容匹配的所述目标剪辑关联信息；或

第二确定子单元，被配置为根据预设的剪辑要求与剪辑关联信息之间的第二对应关系，确定与所述终端上传的目标剪辑要求匹配的所述目标剪辑关联信息。

可选地，所述装置还包括：

第二接收模块，被配置为接收所述终端上传的回传指示信息；

所述第一发送模块包括：

第一发送子模块，被配置为在所述回传指示信息所指示的第一时间点，返回所述目标视频流给所述终端。

根据本公开实施例的第四方面，提供一种视频剪辑装置，所述装置用于终端，所述装置包括：

第一确定模块，被配置为确定多帧第一图像；

第二发送模块，被配置为将多帧所述第一图像上传到云端，由所述云端对多帧所述第一图像进行剪辑，生成包括多帧第二图像的目标视频流；

第三接收模块，被配置为接收所述云端返回的所述目标视频流。

可选地，所述装置还包括：

第二确定模块，被配置为确定对所述目标视频流进行剪辑的目标剪辑条件；

第三发送模块，被配置为上传所述目标剪辑条件到所述云端。

可选地，所述装置还包括：

第四发送模块，被配置为上传用于指示所述云端返回所述目标视频流的第一时间点的回传指示信息到所述云端。

可选地，所述第二发送模块包括：

确定子模块，被配置为确定上传多帧所述第一图像的第二时间点；

第二发送子模块，被配置为在到达所述第二时间点时，将多帧所述第一图像上传到所述云端。

根据本公开实施例的第五方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行第一方面任一所述的视频剪辑方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行第二方面任一所述的视频剪辑方法。

根据本公开实施例的第七方面，提供一种视频剪辑装置，所述装置用于云端，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

接收终端上传的多帧第一图像；

返回所述目标视频流给所述终端。

根据本公开实施例的第八方面，提供一种视频剪辑装置，所述装置用于终端，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

确定多帧第一图像；

接收所述云端返回的所述目标视频流。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中，云端在接收到终端上传的多帧第一图像后，可以对多帧第一图像进行剪辑，生成包括多帧第二图像的目标视频流，并将目标视频流返回给终端。无需用户手动进行视频剪辑，可以由云端自动完成视频剪辑并生成最终的目标视频流，提高了目标视频流的剪辑质量，智能化程度高。

本公开实施例中，云端可以对多帧第一图像进行内容识别，根据识别出的每帧第一图像所对应的内容信息，在多帧第一图像中选取出多帧第二图像，并基于多帧第二图像生成目标视频流，实现了云端自动进行视频剪辑生成目标视频流的目的，提高了目标视频流的剪辑质量，智能化程度高。

本公开实施例中，可以通过预先训练好的第一神经网络对每帧第一图像进行内容识别，获得每帧第一图像对应的内容信息，从而确定出多帧第一图像所对应的目标主题内容。进一步地，可以根据目标主题内容和每帧第一图像所对应的内容信息，在多帧所述第一图像中删除满足指定剪辑条件的第三图像，获得多帧所述第二图像。本公开根据多帧第一图像对应的目标主题内容和每帧第一图像对应的内容信息，实现了对多帧第一图像自动进行剪辑，获得多帧第二图像的目的，提高了目标视频流的剪辑质量，可用性高。

本公开实施例中，可以根据预先训练好的第二神经网络，基于多帧第二图像和目标剪辑关联信息，自动生成目标视频流，提高了视频剪辑的智能化程度。

本公开实施例中，可以根据预设的主题内容与剪辑关联信息之间的第一对应关系，确定出与多帧第一图像对应的目标主题内容所匹配的目标剪辑关联信息。或者还可以根据预设的剪辑要求与剪辑关联信息之间的第二对应关系，确定与终端上传的目标剪辑要求匹配的目标剪辑关联信息，实现简便，可用性高。

本公开实施例中，云端可以根据终端上传的回传指示信息，确定返回目标视频流的第一时间点，在第一时间点将目标视频流返回给终端，提升了终端的用户的体验。

本公开实施例中，终端可以采集多帧第一图像，并将多帧第一图像上传到云端，由云端自动进行剪辑，生成包括多帧第二图像的目标视频流，终端直接接收云端返回的目标视频流即可。无需用户手动进行视频剪辑，提高了视频剪辑的智能化程度。

本公开实施例中，可以通过终端确定对目标视频流进行剪辑的目标剪辑条件，从而将目标剪辑条件上传到云端，后续云端可以根据该目标剪辑条件进行视频剪辑，可用性高。

本公开实施例中，可以通过终端将回传指示信息上传到云端，从而让云端在回传指示信息所指示的第一时间点回传目标视频流，提升了用户体验。

本公开实施例中，终端还可以确定上传多帧所述第一图像的第二时间点，在到达所述第二时间点时，将多帧所述第一图像上传到所述云端，提升了用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开根据一示例性实施例示出的一种视频剪辑方法流程图；

图2是本公开根据一示例性实施例示出的另一种视频剪辑方法流程图；

图3是本公开根据一示例性实施例示出的另一种视频剪辑方法流程图；

图4是本公开根据一示例性实施例示出的另一种视频剪辑方法流程图；

图5是本公开根据一示例性实施例示出的另一种视频剪辑方法流程图；

图6是本公开根据一示例性实施例示出的另一种视频剪辑方法流程图；

图7是本公开根据一示例性实施例示出的另一种视频剪辑方法流程图；

图8是本公开根据一示例性实施例示出的另一种视频剪辑方法流程图；

图9是本公开根据一示例性实施例示出的另一种视频剪辑方法流程图；

图10是本公开根据一示例性实施例示出的另一种视频剪辑方法流程图；

图11是本公开根据一示例性实施例示出的一种视频剪辑装置框图；

图12是本公开根据一示例性实施例示出的另一种视频剪辑装置框图；

图13是本公开根据一示例性实施例示出的另一种视频剪辑装置框图；

图14是本公开根据一示例性实施例示出的另一种视频剪辑装置框图；

图15是本公开根据一示例性实施例示出的另一种视频剪辑装置框图；

图16是本公开根据一示例性实施例示出的另一种视频剪辑装置框图；

图17是本公开根据一示例性实施例示出的另一种视频剪辑装置框图；

图18是本公开根据一示例性实施例示出的另一种视频剪辑装置框图；

图19是本公开根据一示例性实施例示出的另一种视频剪辑装置框图；

图20是本公开根据一示例性实施例示出的另一种视频剪辑装置框图；

图21是本公开根据一示例性实施例示出的一种用于视频剪辑装置的一结构示意图

图22是本公开根据一示例性实施例示出的另一种用于视频剪辑装置的一结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开运行的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所运行的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中运行的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所运行的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本公开实施例采用人工智能算法，自动对多帧图像进行智能剪辑，得到剪辑后的视频流。由于云端的计算能力高于终端，本公开实施例中将自动进行视频剪辑的过程由云端执行，剪辑速度更快，智能剪辑得到的视频流效果更好。下面先从云端介绍一下本公开实施例提供的视频剪辑方法。

本公开实施例提供的视频剪辑方法可以用于云端，可选地，云端可以指云端服务器。如图1所示，图1是根据一示例性实施例示出的一种视频剪辑方法，包括以下步骤：

在步骤101中，接收终端上传的多帧第一图像。

本公开实施例中，云端可以将当时接收到的视频流上传的同一个视频流中所包括的多帧图像和/或多张照片作为多帧第一图像，也可以将指定时间段内终端所有上传的视频流中所包括的多帧图像和/或多张照片作为多帧第一图像。

在步骤102中，对多帧所述第一图像进行剪辑，生成包括多帧第二图像的目标视频流。

本公开实施例中，云端可以通过人工智能算法，从导演视角对多帧第一图像自动进行剪辑，去除其中满足指定剪辑条件的第三图像，从而得到多帧第二图像。针对多帧第二图像，同样通过人工智能算法，基于多帧第二图像与音效、文字等进行混合剪辑，最终生成目标视频流。

在步骤103中，返回所述目标视频流给所述终端。

在本公开实施例中，可以通过传输速度较快的网络，例如5G(5th generationmobile networks，第五代移动通信技术)网络将目标视频流返回给终端。

在上述实施例中，云端在接收到终端上传的多帧第一图像后，可以对多帧第一图像进行剪辑，生成包括多帧第二图像的目标视频流，并将目标视频流返回给终端。无需用户手动进行视频剪辑，可以由云端自动完成视频剪辑并生成最终的目标视频流。

在一可选实施例中，如图2所示，图2是在前述图1所示实施例的基础上示出的另一种视频剪辑方法，步骤102可以包括：

在步骤102-1中，对多帧所述第一图像进行内容识别，根据识别出的每帧所述第一图像所对应的内容信息，在多帧所述第一图像中选取多帧所述第二图像。

在本公开实施例中，内容信息包括以下至少一项：每个元素的元素内容、属于图像主体的第一元素、属于图像陪体的第二元素、所述第一元素与所述第二元素之间的关系、图像分辨率和曝光率。

其中，每帧所述第一图像所对应的每个元素的元素内容是指该第一图像所包括的所有物体类型，该物体类型可以包括但不限于树木、建筑物、人物、天空、大地、桌椅、家电、家具等。每帧所述第一图像所对应的图像主体是指第一图像上最重要、最想要突出的元素。图像陪体是指第一图像上用来陪衬主体的元素。属于图像主体的第一元素与属于图像陪体的第二元素之间的关系可以是主从关系，例如第二元素用来衬托第一元素，两者对比清晰，不存在模糊的划分。如果第二元素对第一元素的衬托不明显，对比模糊，无法明确划分，那么第一元素与第二元素之间的关系不属于主从关系。每帧所述第一图像所对应的图像分辨率指第一图像中每单位尺寸内有多少个像素点，可以指示第一图像的清晰度。每帧所述第一图像所对应的曝光率是指第一图像中的光线信息。

本步骤中，可以根据识别出的每帧所述第一图像所对应的内容信息，在多帧第一图像中删除满足指定剪辑条件的第三图像，剩下的图像作为多帧第二图像。

在步骤102-2中，基于多帧所述第二图像生成所述目标视频流。

本步骤中，在选取出多帧第二图像后，可以基于多帧第二图像生成最终的目标视频流，提高了智能剪辑的质量。

上述实施例中，云端可以对多帧第一图像进行内容识别，根据识别出的每帧第一图像所对应的内容信息，在多帧第一图像中选取出多帧第二图像，并基于多帧第二图像生成目标视频流，实现了云端自动进行视频剪辑生成目标视频流的目的，提高了目标视频流的剪辑质量，智能化程度高。

在一可选实施例中，如图3所示，图3是在前述图2所示实施例的基础上示出的另一种视频剪辑方法，步骤102-1可以包括：

在步骤102-11中，将多帧所述第一图像输入第一神经网络，获得所述第一神经网络输出的每帧所述第一图像所对应的内容信息。

本公开实施例中，第一神经网络是预先训练好的用于对图像进行内容识别的神经网络。

在对第一神经网络训练过程中，第一神经网络可以采用ResNet(ResidualNetwork,残差网络)、googlenet、VGG(Visual Geometry Group Network，视觉几何群网络)等作为骨架网络，包括至少一个卷积层、BN(Batch Normalization，批量归一化)层、分类输出层等。通过输入多张样本图像对骨架网络进行训练，其中多张样本图像中标注了每张样本图像对应的内容信息的真值，通过调整骨架网络中至少一层的网络参数，让神经网络输出的每张样本图像的内容信息与样本图像中标注的内容信息的真值一致或差异在容错范围内，从而得到该第一神经网络。

本步骤中，可以直接将多帧第一图像输入训练好的第一神经网络，获得该第一神经网络对每帧第一图像进行内容识别后输出的每帧第一图像所对应的内容信息。

在步骤102-12中，根据每帧所述第一图像所对应的内容信息，确定多帧所述第一图像对应的目标主题内容。

在本步骤中，如果多帧第一图像中有至少一半的第一图像所对应的内容信息中属于图像主体的第一元素一致，那么可以将第一元素作为目标主题内容。例如，多帧第一图像中至少一半的第一图像对应的第一元素均为同一人物，则目标主题内容可以是该人物。

或者根据多帧第一图像所对应的内容信息中每个元素的元素内容，来确定多帧第一图像对应的场景，根据该场景确定相应的目标主题内容。例如，多帧第一图像所对应的内容信息中每个元素的元素内容包括了小朋友，玩具，沙发，窗户，跑动的小狗，地毯，茶几等，可以根据这些元素内容确定场景为家居场景，则目标主题内容可以为家庭生活。

当然，也可以根据每帧第一图像中的内容信息，采用其他方式确定相应的目标主题内容，本公开对此不做限定。

在步骤102-13中，根据所述目标主题内容和每帧所述第一图像所对应的内容信息，在多帧所述第一图像中删除满足指定剪辑条件的第三图像，获得多帧所述第二图像。

指定剪辑条件包括以下至少一项：所述第一元素所对应的元素内容与所述目标主题内容不匹配；所述第一元素所对应的元素内容缺失；所述第一元素与所述第二元素之间不属于主从关系；所述图像分辨率低于预设图像分辨率；所述曝光率大于第一预设曝光率或小于第二预设曝光率。

在本步骤中，如果第一图像中作为图像主体的第一元素所对应的元素内容与多帧第一图像对应的目标主题内容不匹配，则可以确定该第一图像是满足指定剪辑条件的第三图像，可以删除。

如果第一图像中作为图像主体的第一元素所对应的内容有缺失，也可以将该第一图像不属于高质量的图像，可以作为满足指定剪辑条件的第三图像进行删除。如果第一图像中第一元素与第二元素之间不属于主从关系，那么可以认为作为图像陪体的第二元素与作为图像主体的第一元素之间界限模糊，该第一图像可以作为满足指定剪辑条件的第三图像。另外，图像分辨率低、曝光率低或曝光率过高的第一图像同样不属于高质量的图像，可以作为满足指定剪辑条件的第三图像。

在多帧第一图像中，根据上述方式可以删除其中质量较差的图像，保留下的图像是高质量的图像，即多帧第二图像。后续可以基于多帧第二图像制作目标视频流，提高了视频流剪辑的质量。

在一可选实施例中，如图4所示，图4是在前述图2所示实施例的基础上示出的另一种视频剪辑方法，步骤102-2可以包括：

在步骤102-21中，确定用于与多帧所述第二图像进行混合剪辑的目标剪辑关联信息。

在本公开实施例中，目标剪辑关联信息可以包括但不限于以下至少一项：背景音乐、转场信息、视频风格信息、视频流模板、音频、文字。

其中，转场信息可以是每帧第二图像之间进行切换时的过渡信息，视频风格可以指画面风格，例如中国风风格、复古风格、卡通风格等。视频流模板可以是预先设定的制作视频流的固定模板信息。音频可以是终端之前上传的多帧第一图像时所携带的音频，也可以是视频流模板中固有的音频等。文字可以是在混剪时域至少一帧第二图像对应的内容信息匹配的文字。

在步骤102-22中，将多帧所述第二图像和所述目标剪辑信息输入第二神经网络，由所述第二神经网络生成所述目标视频流。

本公开实施例中，第二神经网络是预先训练好的用于基于输入的多帧图像和剪辑关联信息制作视频流的神经网络的神经网络。

在对第二神经网络训练过程中，第二神经网络可以采用ResNet(ResidualNetwork,残差网络)、googlenet、VGG(Visual Geometry Group Network，视觉几何群网络)等作为骨架网络，包括至少一个卷积层、BN(Batch Normalization，批量归一化)层、分类输出层等。通过输入多帧样本图像和剪辑关联信息，对骨架网络进行训练，让神经网络输出的经过剪辑的视频流与预先制作的包括多帧样本图像的视频流一致或差异在容错范围内，从而得到该第二神经网络。

本步骤中，可以直接将多帧所述第二图像和所述目标剪辑信息输入训练好的第二神经网络，获得该第二神经网络将多帧第二图像与目标剪辑信息进行混合剪辑后，制作得到的目标视频流。

上述实施例中，可以根据预先训练好的第二神经网络，基于多帧第二图像和目标剪辑关联信息，自动生成目标视频流，提高了视频剪辑的智能化程度。

在一可选实施例中，步骤102-21可以采用以下方式中的任意一种方式确定目标剪辑关联信息：

在一种可能地实现方式中，之前根据每帧第一图像对应的内容信息，确定了多帧第一图像对应的目标主题内容，云顿预先存储了主题内容与剪辑关联信息之间的第一对应关系，此时可以根据该第一对应关系，确定与目标主题内容匹配的所述目标剪辑关联信息。在另一种可能地实现方式中，终端的用户可以在终端上设置对所需要的目标视频流的目标剪辑要求，终端上传该目标剪辑要求到云端，云端根据预设的剪辑要求与剪辑关联信息之间的第二对应关系，确定与目标剪辑要求匹配的所述目标剪辑关联信息。

其中，目标剪辑要求包括但不限于视频流时长、视频风格、文字内容、音效内容等。

例如，终端上传的目标剪辑要求为视频流时长2分钟，主题内容为快乐时光，则云端可以制作2分钟时长且主题内为快乐时光的目标视频流。

在一可选实施例中，目标剪辑要求还可以包括指定时间段和/或主题内容，该指定时间段可以指示终端在该时间段内所有上传到云端的照片或视频流中的图像均可以作为第一图像。

例如，终端上传的目标剪辑要求为视频流时长2分钟，主题内容为快乐时光，指定时间段为半年，则云端可以将半年内终端所有上传的图像作为第一图像，在其中选取主题内容与快乐时光匹配的多帧第二图像，且多帧第二图像的数目可以制作2分钟时长的视频流，最终得到目标视频流。

在一可选实施例中，如图5所示，图5是在前述图1所示实施例的基础上示出的另一种视频剪辑方法，该方法还可以包括：

在步骤104中，接收所述终端上传的回传指示信息；

步骤103可以包括：

其中，如果回传指示信息为立即回传，则可以将生成目标视频流的时间点作为第一时间点，返回目标视频流给终端。如果目标指示信息指示了其他具体的回传时间点，该回传时间点距离当前时间点的时长大于云端生成目标视频流的时长，则在生成目标视频流后，到达第一时间点时才返回目标视频流给终端。

上述实施例中，云端可以根据终端上传的回传指示信息，确定返回目标视频流的第一时间点，在第一时间点将目标视频流返回给终端，提升了终端的用户的体验。

下面再从终端侧介绍本公开实施例提供的视频剪辑方法。

本公开实施例提供的视频剪辑方法可以用于终端，例如智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)等。如图6所示，图6是根据一示例性实施例示出的另一种视频剪辑方法，包括以下步骤：

在步骤201中，确定多帧第一图像。

终端可以通过预先设置的摄像头等采集视频流，将该视频流所包括的多帧图像作为多帧第一图像，和/或通过该摄像头采集多张照片，将多张照片作为多帧第一图像。

或者终端可以根据用户的选择在图片库中确定至少一个视频流包括的多帧图像和/或多张照片，并作为多帧第一图像。

在步骤202中，将多帧所述第一图像上传到云端，由所述云端对多帧所述第一图像进行剪辑，生成包括多帧第二图像的目标视频流。

终端可以将采集到的多帧第一图像通过5G网络快速上传到云端，由云端采用上述视频剪辑方法，对多帧所述第一图像进行剪辑，生成包括多帧第二图像的目标视频流。

在步骤203中，接收所述云端返回的所述目标视频流。

云端在生成目标视频流之后，仍然可以通过5G网络回传目标视频流给终端，终端直接接收即可，后续可以根据用户需要在应用程序中进行分享或保存在终端上。

上述实施例中，终端可以采集多帧第一图像，并将多帧第一图像上传到云端，由云端自动进行剪辑，生成包括多帧第二图像的目标视频流，终端直接接收云端返回的目标视频流即可。无需用户手动进行视频剪辑，提高了视频剪辑的智能化程度。

在一可选实施例中，如图7所示，图7是在前述图6所示实施例的基础上示出的另一种视频剪辑方法，该方法还可以包括：

在步骤204中，确定对所述目标视频流进行剪辑的目标剪辑条件。

终端可以输出一些备选的剪辑条件，剪辑条件包括但不限于以下至少一项：视频流时长、视频风格、文字内容、音效内容、指定时间段和主题内容。

由终端的用户在这些备选剪辑条件中确定目标剪辑条件。

在步骤205中，上传所述目标剪辑条件到所述云端。

云端在接收到目标剪辑条件之后，可以根据目标剪辑条件确定多帧第一图像，和/或在多帧第一图像中选取出多帧第二图像，以便制作得到满足用户需要的目标视频流。

上述实施例中，可以通过终端确定对目标视频流进行剪辑的目标剪辑条件，从而将目标剪辑条件上传到云端，后续云端可以根据该目标剪辑条件进行视频剪辑，可用性高。

在一可选实施例中，如图8所示，图8是在前述图6所示实施例的基础上示出的另一种视频剪辑方法，该方法还可以包括：

在步骤206中，上传用于指示所述云端返回所述目标视频流的第一时间点的回传指示信息到所述云端。

在本步骤中，终端可以输出指示第一时间点的备选时间项，例如备选时间项可以是立即回传、或某一个具体时间点、或闲时回传。用户根据输出的备选时间项确定了第一时间点后，终端自动生成回传指示信息上传到云端，云端后续根据回传指示信息返回目标视频流。

如果回传指示信息指示了立即回传，则云端可以在生成目标视频流之后，立即通过5G网络将目标视频流返回给终端，如果回传指示信息指示了某个具体时间点，则云端在到达该时间点时，才回传目标视频流。如果回传指示信息指示了按需回传，则云端可以在满足指定需要时，例如终端空闲时或有分享视频流的需要时，回传目标视频流。

上述实施例中，可以通过终端将回传指示信息上传到云端，从而让云端在回传指示信息所指示的第一时间点回传目标视频流，提升了用户体验。

在一可选实施例中，如图9所示，图9是在前述图6所示实施例的基础上示出的另一种视频剪辑方法，步骤202可以包括：

在步骤202-1中，确定上传多帧所述第一图像的第二时间点。

本步骤中，终端在确定了多帧第一图像之后，可以确定第二时间点。可选地，终端可以输出备选时间项供用户确定第二时间点。例如实时上传、闲时上传等。

在步骤202-2中，在到达所述第二时间点时，将多帧所述第一图像上传到所述云端。

如果用户选择了实时上传，则可以将当前时间点作为第二时间点，立即将多帧第一图像上传到云端。如果用户选择了闲时上传，则终端可以将终端空闲时的时间点作为第二时间点，上传多帧第一图像到云端。

上述实施例中，终端还可以确定上传多帧所述第一图像的第二时间点，在到达所述第二时间点时，将多帧所述第一图像上传到所述云端，提升了用户体验。

在一可选实施例中，如图10所示，图10是根据一示例性实施例示出的另一种视频剪辑方法，包括以下步骤：

在步骤301中，终端确定多帧第一图像。

在步骤302中，终端确定上传多帧所述第一图像的第二时间点。

在本公开实施例中，也可以不执行步骤302。

在步骤303中，终端在到达所述第二时间点时，将多帧第一图像上传到云端。

如果不执行步骤302，则终端可以立即上传多帧第一图像到云端，或者在终端闲时上传多帧第一图像到云端，本公开对此不作限定。

在步骤304中，终端上传目标剪辑条件到云端。

在步骤305中，终端上传回传指示信息到云端。

在本公开实施例中，步骤304和步骤305可以选择执行，即可以执行步骤304不执行步骤305，或执行步骤305不执行步骤304，还可以两个步骤均不执行，本公开对此不作限定。

在步骤306中，云端将多帧所述第一图像输入第一神经网络，获得所述第一神经网络输出的每帧所述第一图像所对应的内容信息。

在步骤307中，云端根据每帧所述第一图像所对应的内容信息，确定多帧所述第一图像对应的目标主题内容。

如果终端上传的目标剪辑条件中包括主题内容，则可以不执行步骤307，直接将目标剪辑条件中的主题内容作为目标主题内容。

在步骤308中，云端根据所述目标主题内容和每帧所述第一图像所对应的内容信息，在多帧所述第一图像中删除满足指定剪辑条件的第三图像，获得多帧所述第二图像。

在步骤309中，云端确定用于与多帧所述第二图像进行混合剪辑的目标剪辑关联信息。

云端可以根据目标主题内容确定匹配的目标剪辑关联信息，或者可以根据目标剪辑要求确定匹配的目标剪辑关联信息。

在步骤310中，云端将多帧所述第二图像和所述目标剪辑信息输入第二神经网络，由所述第二神经网络生成所述目标视频流。

在步骤311中，云端在所述回传指示信息所指示的第一时间点，返回所述目标视频流给所述终端。

如果终端未上传回传指示信息，则云端可以在生成目标视频流之后立即返回给终端，也可以在终端需要时在返回给终端，本公开对此不作限定。

在上述实施例中，终端和云端的交互过程可以采用5G网络，确保终端与网络侧交互的时效性。

上述实施例中，云端可以采用人工智能算法，从导演视角对多帧第一图像自动进行剪辑，生成高质量的目标视频流，无需用户手动进行视频剪辑，提高了视频流剪辑的智能化程度，提升了用户体验。

与前述方法实施例相对应，本公开还提供了装置的实施例。

如图11所示，图11是本公开根据一示例性实施例示出的一种视频剪辑装置框图，所述装置用于云端，所述装置包括：

第一接收模块410，被配置为接收终端上传的多帧第一图像；

视频剪辑模块420，被配置为对多帧所述第一图像进行剪辑，生成包括多帧第二图像的目标视频流；

第一发送模块430，被配置为返回所述目标视频流给所述终端。

如图12所示，图12本公开根据一示例性实施例示出的另一种视频剪辑装置框图，该实施例在前述图11实施例的基础上，所述视频剪辑模块420包括：

选取子模块421，被配置为对多帧所述第一图像进行内容识别，根据识别出的每帧所述第一图像所对应的内容信息，在多帧所述第一图像中选取多帧所述第二图像；

生成子模块422，被配置为基于多帧所述第二图像生成所述目标视频流。

如图13所示，图13本公开根据一示例性实施例示出的另一种视频剪辑装置框图，该实施例在前述图12实施例的基础上，所述选取子模块421包括：

获取单元4211，被配置为将多帧所述第一图像输入第一神经网络，获得所述第一神经网络输出的每帧所述第一图像所对应的内容信息；其中，所述第一神经网络是预先训练好的用于对图像进行内容识别的神经网络；

第一确定单元4212，被配置为根据每帧所述第一图像所对应的内容信息，确定多帧所述第一图像对应的目标主题内容；

选取单元4213，被配置为根据所述目标主题内容和每帧所述第一图像所对应的内容信息，在多帧所述第一图像中删除满足指定剪辑条件的第三图像，获得多帧所述第二图像。

可选地，所述内容信息包括以下至少一项：

所述指定剪辑条件包括以下至少一项：

所述第一元素所对应的元素内容缺失；

所述第一元素与所述第二元素之间不属于主从关系；

所述图像分辨率低于预设图像分辨率；

所述曝光率大于第一预设曝光率或小于第二预设曝光率。

如图14所示，图14本公开根据一示例性实施例示出的另一种视频剪辑装置框图，该实施例在前述图12实施例的基础上，所述生成子模块422包括：

第二确定单元4221，被配置为确定用于与多帧所述第二图像进行混合剪辑的目标剪辑关联信息；

生成单元4222，被配置为将多帧所述第二图像和所述目标剪辑信息输入第二神经网络，由所述第二神经网络生成所述目标视频流；其中，所述第二神经网络是预先训练好的用于基于输入的多帧图像和剪辑关联信息制作视频流的神经网络。

如图15所示，图15本公开根据一示例性实施例示出的另一种视频剪辑装置框图，该实施例在前述图14实施例的基础上，所述第二确定单元4221包括：

第一确定子单元42211，被配置为根据预设的主题内容与剪辑关联信息之间的第一对应关系，确定与多帧所述第一图像对应的目标主题内容匹配的所述目标剪辑关联信息；或

第二确定子单元42212，被配置为根据预设的剪辑要求与剪辑关联信息之间的第二对应关系，确定与所述终端上传的目标剪辑要求匹配的所述目标剪辑关联信息。

如图16所示，图16本公开根据一示例性实施例示出的另一种视频剪辑装置框图，该实施例在前述图11实施例的基础上，所述装置还包括：

第二接收模块440，被配置为接收所述终端上传的回传指示信息；

所述第一发送模块430包括：

第一发送子模块431，被配置为在所述回传指示信息所指示的第一时间点，返回所述目标视频流给所述终端。

如图17所示，图17是本公开根据一示例性实施例示出的另一种视频剪辑装置框图，所述装置用于终端，所述装置包括：

第一确定模块510，被配置为确定多帧第一图像；

第二发送模块520，被配置为将多帧所述第一图像上传到云端，由所述云端对多帧所述第一图像进行剪辑，生成包括多帧第二图像的目标视频流；

第三接收模块530，被配置为接收所述云端返回的所述目标视频流。

如图18所示，图18本公开根据一示例性实施例示出的另一种视频剪辑装置框图，该实施例在前述图17实施例的基础上，所述装置还包括：

第二确定模块540，被配置为确定对所述目标视频流进行剪辑的目标剪辑条件；

第三发送模块550，被配置为上传所述目标剪辑条件到所述云端。

如图19所示，图19本公开根据一示例性实施例示出的另一种视频剪辑装置框图，该实施例在前述图17实施例的基础上，所述装置还包括：

第四发送模块560，被配置为上传用于指示所述云端返回所述目标视频流的第一时间点的回传指示信息到所述云端。

如图20所示，图20本公开根据一示例性实施例示出的另一种视频剪辑装置框图，该实施例在前述图17实施例的基础上，所述第二发送模块520包括：

确定子模块521，被配置为确定上传多帧所述第一图像的第二时间点；

第二发送子模块522，被配置为在到达所述第二时间点时，将多帧所述第一图像上传到所述云端。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本公开还提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一所述的用于云端的视频剪辑方法。

相应的，本公开还提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一所述的用于终端的视频剪辑方法。

相应的，本公开还提供一种视频剪辑装置，所述装置用于云端，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

接收终端上传的多帧第一图像；

返回所述目标视频流给所述终端。

如图21所示，图21是根据一示例性实施例示出的一种视频剪辑装置2100的一结构示意图。装置2100可以被提供为云端。参照图21，装置2100包括处理组件2122、无线发射/接收组件2124、天线组件2126、以及无线接口特有的信号处理部分，处理组件2122可进一步包括一个或多个处理器。

处理组件2122中的其中一个处理器可以被配置为上述任一项所述的云端的视频剪辑方法。

相应的，本公开还提供一种视频剪辑装置，所述装置用于终端，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

确定多帧第一图像；

接收所述云端返回的所述目标视频流。

图22是根据一示例性实施例示出的一种电子设备2200的框图。例如电子设备2200可以是手机、平板电脑、电子书阅读器、多媒体播放设备、可穿戴设备、车载终端等终端。

参照图22，电子设备2200可以包括以下一个或多个组件：处理组件2202，存储器2204，电源组件2206，多媒体组件2208，音频组件2210，输入/输出(I/O)接口2212，传感器组件2216，以及通信组件2218。

处理组件2202通常控制电子设备2200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件2202可以包括一个或多个处理器2220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件2202可以包括一个或多个模块，便于处理组件2202和其他组件之间的交互。例如，处理组件2202可以包括多媒体模块，以方便多媒体组件2208和处理组件2202之间的交互。又如，处理组件2202可以从存储器读取可执行指令，以实现上述各实施例提供的一种视频剪辑方法的步骤。

存储器2204被配置为存储各种类型的数据以支持在电子设备2200的操作。这些数据的示例包括用于在电子设备2200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器2204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件2206为电子设备2200的各种组件提供电力。电源组件2206可以包括电源管理系统，一个或多个电源，及其他与为电子设备2200生成、管理和分配电力相关联的组件。

多媒体组件2208包括在所述电子设备2200和用户之间的提供一个输出接口的显示屏。在一些实施例中，多媒体组件2208包括一个前置摄像头和/或后置摄像头。当电子设备2200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件2210被配置为输出和/或输入音频信号。例如，音频组件2210包括一个麦克风(MIC)，当电子设备2200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器2204或经由通信组件2218发送。在一些实施例中，音频组件2210还包括一个扬声器，用于输出音频信号。

I/O接口2212为处理组件2202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件2216包括一个或多个传感器，用于为电子设备2200提供各个方面的状态评估。例如，传感器组件2216可以检测到电子设备2200的打开/关闭状态，组件的相对定位，例如所述组件为电子设备2200的显示器和小键盘，传感器组件2216还可以检测电子设备2200或电子设备2200一个组件的位置改变，用户与电子设备2200接触的存在或不存在，电子设备2200方位或加速/减速和电子设备2200的温度变化。传感器组件2216可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件2216还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件2216还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件2218被配置为便于电子设备2200和其他设备之间有线或无线方式的通信。电子设备2200可以接入基于通信标准的无线网络，如Wi-Fi，2G，3G，4G或5G，或它们的组合。在一个示例性实施例中，通信组件2218经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件2218还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备2200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性机器可读存储介质，例如包括指令的存储器2204，上述指令可由电子设备2200的处理器2220执行以完成上述无线充电方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或者惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种视频剪辑方法，其特征在于，所述方法用于云端，所述方法包括：

接收终端上传的多帧第一图像；

返回所述目标视频流给所述终端。

2.根据权利要求1所述的方法，其特征在于，所述对多帧所述第一图像进行剪辑，生成包括多帧第二图像的目标视频流，包括：

基于多帧所述第二图像生成所述目标视频流。

3.根据权利要求2所述的方法，其特征在于，所述对多帧所述第一图像进行内容识别，根据识别出的每帧所述第一图像所对应的内容信息，在多帧所述第一图像中选取多帧所述第二图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述内容信息包括以下至少一项：

所述指定剪辑条件包括以下至少一项：

所述第一元素所对应的元素内容缺失；

所述第一元素与所述第二元素之间不属于主从关系；

所述图像分辨率低于预设图像分辨率；

所述曝光率大于第一预设曝光率或小于第二预设曝光率。

5.根据权利要求2所述的方法，其特征在于，所述基于多帧所述第二图像生成目标视频流，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定用于与多帧所述第二图像进行混合剪辑的目标剪辑关联信息，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收所述终端上传的回传指示信息；

所述返回所述目标视频流给所述终端，包括：

8.一种视频剪辑方法，其特征在于，所述方法用于终端，所述方法包括：

确定多帧第一图像；

接收所述云端返回的所述目标视频流。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

确定对所述目标视频流进行剪辑的目标剪辑条件；

上传所述目标剪辑条件到所述云端。

10.根据权利要求8所述的方法，其特征在于，所述方法还包括：

11.根据权利要求8所述的方法，其特征在于，所述将多帧所述第一图像上传到云端，包括：

确定上传多帧所述第一图像的第二时间点；

12.一种视频剪辑装置，其特征在于，所述装置用于云端，所述装置包括：

第一接收模块，被配置为接收终端上传的多帧第一图像；

第一发送模块，被配置为返回所述目标视频流给所述终端。

13.根据权利要求12所述的装置，其特征在于，所述视频剪辑模块包括：

14.根据权利要求13所述的装置，其特征在于，所述选取子模块包括：

15.根据权利要求14所述的装置，其特征在于，所述内容信息包括以下至少一项：

所述指定剪辑条件包括以下至少一项：

所述第一元素所对应的元素内容缺失；

所述第一元素与所述第二元素之间不属于主从关系；

所述图像分辨率低于预设图像分辨率；

所述曝光率大于第一预设曝光率或小于第二预设曝光率。

16.根据权利要求13所述的装置，其特征在于，所述生成子模块包括：

17.根据权利要求16所述的装置，其特征在于，所述第二确定单元包括：

18.根据权利要求12所述的装置，其特征在于，所述装置还包括：

所述第一发送模块包括：

19.一种视频剪辑装置，其特征在于，所述装置用于终端，所述装置包括：

第一确定模块，被配置为确定多帧第一图像；

20.根据权利要求19所述的装置，其特征在于，所述装置还包括：

21.根据权利要求19所述的装置，其特征在于，所述装置还包括：

22.根据权利要求19所述的装置，其特征在于，所述第二发送模块包括：

23.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的视频剪辑方法。

24.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求8-11任一所述的视频剪辑方法。

25.一种视频剪辑装置，其特征在于，所述装置用于云端，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

接收终端上传的多帧第一图像；

返回所述目标视频流给所述终端。

26.一种视频剪辑装置，其特征在于，所述装置用于终端，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

确定多帧第一图像；

接收所述云端返回的所述目标视频流。