CN113841417B

CN113841417B - 影片生成方法、终端设备、拍摄设备及影片生成系统

Info

Publication number: CN113841417B
Application number: CN202080035038.6A
Authority: CN
Inventors: 朱梦龙; 刘志鹏; 朱高
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2023-07-28
Anticipated expiration: 2040-09-27
Also published as: CN113841417A; WO2022061806A1

Abstract

本申请实施例公开了一种影片生成方法，包括：获取目标素材视频的语义信息，所述语义信息至少包括：从拍摄设备获取的外部素材视频的语义信息；根据所述语义信息，确定生成影片所需的视频片段信息；获取与所述视频片段信息对应的目标视频片段，其中，所述目标视频片段至少包括：从所述拍摄设备获取的所述外部素材视频的视频片段；利用所述目标视频片段生成影片。本申请实施例公开的方法，可以解决现有的自动剪辑需要用户等待较长的时间的技术问题。

Description

影片生成方法、终端设备、拍摄设备及影片生成系统

技术领域

本申请涉及音视频处理技术领域，尤其涉及一种影片生成方法、终端设备、拍摄设备、影片生成系统及计算机可读存储介质。

背景技术

自动剪辑为有剪辑影片需求的用户提供了极大的方便。自动剪辑是指机器可以自动挑选合适的视频片段、背景音乐、转场效果、视频效果等剪辑成片，该过程无需用户操作或仅需用户进行简单的操作。然而，现有的自动剪辑成片速度慢，需要用户等待较长的时间。

发明内容

有鉴于此，本申请实施例提供了一种影片生成方法、终端设备、拍摄设备、影片生成系统及计算机可读存储介质，以解决现有的自动剪辑需要用户等待较长的时间的技术问题。

本申请实施例第一方面提供一种影片生成方法，包括：

获取目标素材视频的语义信息，所述语义信息至少包括：从拍摄设备获取的外部素材视频的语义信息；

根据所述语义信息，确定生成影片所需的视频片段信息；

获取与所述视频片段信息对应的目标视频片段，其中，所述目标视频片段至少包括：从所述拍摄设备获取的所述外部素材视频的视频片段；

利用所述目标视频片段生成影片。

本申请实施例第二方面提供一种影片生成方法，包括：

获取目标素材视频的语义信息；

将所述语义信息发送给终端设备，其中，所述语义信息用于所述终端设备确定生成影片所需的视频片段信息；

获取所述终端设备发送的所述视频片段信息，并根据所述视频片段信息对所述目标素材视频进行剪辑，得到目标视频片段；

将所述目标视频片段传输给所述终端设备，以便所述终端设备利用所述目标视频片段生成影片。

本申请实施例第三方面提供一种终端设备，包括：

通信接口，用于与拍摄设备通信；

处理器和存储有计算机程序的存储器，所述计算机程序被所述处理器执行时实现以下步骤：

根据所述语义信息，确定生成影片所需的视频片段信息；

利用所述目标视频片段生成影片。

本申请实施例第四方面提供一种拍摄设备，包括：

摄像头，用于拍摄素材视频；

通信接口，用于与终端设备通信；

获取目标素材视频的语义信息；

本申请实施例第五方面提供影片生成系统，包括：

终端设备，用于获取目标素材视频的语义信息，所述语义信息至少包括：从拍摄设备获取的外部素材视频的语义信息；根据所述语义信息，确定生成影片所需的视频片段信息；获取与所述视频片段信息对应的目标视频片段，其中，所述目标视频片段至少包括：从所述拍摄设备获取的所述外部素材视频的视频片段；利用所述目标视频片段生成影片；

拍摄设备，用于获取所述外部素材视频的语义信息；将所述语义信息发送给所述终端设备；获取所述终端设备发送的所述视频片段信息，并根据所述视频片段信息对所述目标素材视频进行剪辑，得到目标视频片段；将所述目标视频片段传输给所述终端设备。

本申请实施例第六方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所提供的影片生成方法。

本申请实施例第七方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第二方面所提供的影片生成方法。

本申请实施例提供的影片生成方法，并不需要拍摄设备将可能用于生成影片的目标素材视频先传输给终端设备，而是可以由终端设备先从拍摄设备处获取目标素材视频的语义信息，利用语义信息确定所需的视频片段信息，从而，只需从拍摄设备处获取视频片段信息对应的目标视频片段即可，无需传输所有的目标素材视频，大大减少了用户的等待时间，提高了自动剪辑的速度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的场景示意图。

图2是本申请实施例提供的影片生成方法的流程图。

图3是本申请实施例提供的影片生成方法的交互图。

图4是本申请实施例提供的影片生成方法的另一流程图。

图5是本申请实施例提供的一种终端设备的结构示意图。

图6是本申请实施例提供的一种拍摄设备的结构示意图。

图7是本申请实施例提供的一种影片生成系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着互联网技术的发展，人们越来越热衷于分享和记录自己的生活。人们通过手机、相机等各种设备进行拍摄，并利用拍摄的素材剪辑成影片分享到社交平台上。但剪辑出一段有观赏性的影片需要耗费用户不少的时间，比如需要从视频中挑选出合适的视频片段，需要选取与视频内容匹配的音乐，转场时机需要与音乐的节奏点契合等等。

自动剪辑为有剪辑影片需求的用户提供了极大的方便。自动剪辑是指机器可以自动挑选合适的视频片段、背景音乐、转场效果、视频效果等剪辑成片，该过程无需用户操作或仅需用户进行简单的操作。自动剪辑功能可以在应用程序(APP)中实现，该应用程序可以安装在终端设备上，依靠终端设备的处理器、存储器等硬件运行。

在一些情况中，自动剪辑所需的素材视频并不在进行自动剪辑的终端设备上。比如，素材视频可以在拍摄该素材视频的拍摄设备中，而该拍摄设备是独立于终端设备的另一设备，如相机、运动相机、手持云台相机或搭载有相机的无人机等。由于拍摄设备通常具有屏幕小、联网不方便等特点，因此在自动剪辑处理往往在终端设备上进行。终端设备可以是手机、平板或个人电脑等。

由于自动剪辑的处理是在终端设备处进行，而用于成片的素材视频却存储在其他的拍摄设备上，因此在自动剪辑时，终端设备需要从拍摄设备处获取所需的素材视频。而相关技术中，拍摄设备会先将所有可能用于成片的素材视频均传输给终端设备，而将所有可能用于成片的素材视频均传输给终端设备将耗费大量的时间。

为方便理解，可以参考图1，图1是本申请实施例提供的场景示意图。在图1的例子中，终端设备可以是手机、PC、平板电脑，拍摄设备可以是运动相机、云台相机或搭载相机的无人机，在自动剪辑时，运动相机会将当天(也可以是近两天、三天等其他时间，此处仅作为示例)拍摄的所有视频(如图中的视频1、视频2、视频3……)均传输给手机，虽然当天拍摄的所有视频均有可能作为成片素材，但当天拍摄的所有视频的数据量很大，需要耗费大量的时间进行传输，给用户造成不便。

为解决上述问题，本申请实施例提供了一种影片生成方法，该方法可以应用于终端设备。可以参考图2，图2是本申请实施例提供的影片生成方法的流程图。该方法包括：

S210、获取目标素材视频的语义信息。

所述语义信息至少包括：从拍摄设备获取的外部素材视频的语义信息；所述语义信息可以包括景别、视频主题、视频风格、运镜、是否模糊等信息。所述外部素材视频的语义信息可以由拍摄设备向所述终端设备发送。

S220、根据所述语义信息，确定生成影片所需的视频片段信息。

S230、获取与所述视频片段信息对应的目标视频片段。

所述终端设备向所述拍摄设备发送所述视频片段信息，然后所述拍摄设备基于所述视频片段信息获取对应的目标视频片段，并将所述目标视频片段传输给所述终端设备。其中，所述目标视频片段可以为所述拍摄设备拍摄到的素材视频的视频片段，所述视频片段信息可以包括拍摄的时间节点信息或视频编号、起始时间和终止时间。

其中，所述目标视频片段至少包括：从所述拍摄设备获取的所述外部素材视频的视频片段。

S240、利用所述目标视频片段生成影片。

目标素材视频可以是可能用于生成影片的素材视频，比如，目标素材视频可以是同一天拍摄的所有视频，又比如，目标素材视频可以是同一地点拍摄的所有视频。其中，目标素材视频至少可以包括拍摄设备拍摄的外部素材视频。如前文所述，拍摄设备是区别于终端设备的其它设备，因此，拍摄设备所拍摄的素材视频对于终端设备而言属于外部素材视频。

语义信息，可以通过对视频内容进行语义分析得到。在一种实施方式中，对视频内容进行语义分析可以利用神经网络等机器学习算法实现。视频的语义信息可以包括该视频至少一个片段或至少一帧的内容识别结果，内容识别结果可以有多种，比如可以是场景识别结果(如天空、草地、街道等)、人物动作检测结果(如跑步、行走、站立、跳跃等)、人物表情检测结果(如笑脸、哭脸等)、目标检测结果(如动物、汽车等)、构图评价结果、美学评价结果等。换言之，通过视频的语义信息，即可确定该视频所包含的内容。在一种实施方式中，语义信息可以是语义标签，即可以通过对视频打标签的做法将语义信息赋予该视频。

需要注意的是，在获取目标素材视频的语义信息时，对于外部素材视频的语义信息，可以从拍摄设备直接获取。换言之，外部素材视频的语义信息可以不是本端的终端设备分析出来的，而是拍摄设备对外部素材视频进行语义分析得到的。拍摄设备在分析出外部素材视频的语义信息后可以发送给终端设备，从而终端设备获取到外部素材视频的语义信息。

考虑到对素材视频进行语义分析也需要占用一定的时间，因此，可以使拍摄设备在开始自动剪辑之前就分析出素材视频的语义信息。在一种实施方式中，若拍摄设备的算力充足，则可以在素材视频拍摄的过程中同时进行素材视频的语义分析。在一种实施方式中，若拍摄设备的算力不足以支持一边拍摄一边进行语义分析，则可以使拍摄设备在素材视频的拍摄结束后再对所拍摄的素材视频进行语义分析，比如可以在充电过程中进行语义分析。

利用目标素材视频的语义信息，可以确定生成影片所需的视频片段信息。具体的，在确定生成影片所需的视频片段信息时，可以根据预设的成片规则，结合目标素材视频的语义信息进行确定。预设的成片规则在实施时可以是一个算法模块，该算法模块可以称为成片模块，通过将各个目标素材视频的语义信息输入到成片模块中，成片模块可以输出生成影片所需的视频片段对应的视频片段信息。

关于成片模块，在具体实现时有多种实施方式。在一种实施方式中，成片模块可以是基于人工设定的成片规则搭建的。比如，可以依靠专业人员的影片剪辑先验，总结出关于生成影片时如何挑选合适的视频片段的方法，从而可以根据总结出的该方法编写相应的计算机程序，以生成成片模块。在另一种实施方式中，可以通过机器学习技术训练出成片模块。比如，可以获取多组样本素材视频，通过专业人员对各组样本素材视频进行筛选，选取出各组样本素材视频中将会用于成片的视频片段，从而可以以选取出的视频片段与该视频片段对应的样本素材视频组为训练样本对神经网络模型进行训练，得到基于神经网络模型的成片模块。所述成片规则包括基于预设的景别组合、运镜组合、主题等进行单维度或多维度的匹配。

视频片段信息可以是用于生成影片的目标视频片段的相关信息，在一种实施方式中，其可以用于指示出目标视频片段所属的目标素材视频、及目标视频片段对应的时间段。比如，其可以指示出目标视频片段属于目标素材视频X的第10-20秒的视频片段。

在确定视频片段信息之后，可以获取视频片段信息对应的目标视频片段，从而可以利用获取的目标视频片段生成影片。其中，对于属于外部素材视频的目标视频片段，可以从拍摄设备处获取。

在从拍摄设备获取属于外部素材视频的目标视频片段时，在一种实施方式中，可以将确定的视频片段信息发送给拍摄设备，从而，拍摄设备可以利用接收到的视频片段信息，对视频片段信息所指示的目标素材视频进行剪辑，剪辑出目标素材视频对应时间段的目标视频片段后，可以将该目标视频片段传输给终端设备。

考虑到用户希望剪辑到影片中的素材并不一定全部来自拍摄设备，比如当用户去某个地点游玩时，其所拍摄的视频中可能有一部分是运动相机或云台相机拍摄的，另一部分可能是手机拍摄的，此时，用户可能希望自动生成影片时，纳入选择范围的目标素材视频不止包括相机等拍摄设备拍摄的外部素材视频，也可以包括手机等终端设备拍摄的本地素材视频。因此，在一种实施方式中，自动剪辑还可以支持混剪，即目标素材视频还可以包括本地素材视频，在获取目标素材视频的语义信息时，除了可以从拍摄设备获取外部素材视频的语义信息，还包括从本地获取本地素材视频的语义信息。

本地素材视频的语义信息，在一种实施方式中，可以是终端设备对本地素材视频进行语义分析得到的。在另一种实施方式中，也可以是本地素材视频自身携带的语义信息。由于终端设备的本地素材视频来源丰富多样，比如，可以来源于互联网，而手机可能在获取到该来源于素材视频时，该素材视频已经携带有对应的语义信息，从而手机无需重复对该素材视频进行语义分析。

可以理解的，即便目标素材视频包括本地素材视频，但根据目标素材视频的语义信息所确定出的视频片段信息中，也并不一定包括对应本地素材视频的视频片段信息。例如，在一种情况中，终端设备可能根据本地素材视频的语义信息，判断出本地素材视频的拍摄质量较差，不符合成片的要求，从而所确定的视频片段信息均是对应外部素材视频的视频片段信息。

而在一种情况中，若视频片段信息对应的目标视频片段包括本地素材视频的视频片段，则在获取目标视频片段时，对于本地素材视频的视频片段，可以根据视频片段信息对本地素材视频进行剪辑获得。

在上述实施方式中，自动剪辑可以支持混剪功能，即自动剪辑生成的影片中还可以包括终端设备本地的素材视频，从而提高了成片内容的丰富度。并且，在混剪时，对于本地素材视频也可以根据语义信息进行视频片段信息的确定，从而能够选取出本地素材视频中适合用于成片的视频片段，相比随机选取本地素材视频中的视频片段插入影片，有更高的成片质量。

如前文所述，视频片段信息可以通过将语义信息输入成片模块后得到。在一种实施方式中，在将语义信息输入成片模块后，成片模块的输出可以包括目标成片模板和目标成片模板中各视频空位对应的视频片段信息。

成片模板可以是预先设定的影片模板，其可以包括多个视频空位，每个视频空位可以用于导入或插入视频片段。每个成片模板可以有各自的特征，比如，视频空位上可以配套有不同的贴图、文字、视频特效等元素，其中，视频特效可以是加速、减速、滤镜、运镜等各种特效。在视频空位和视频空位之间还可以有不同的转场效果。并且，不同的成片模板也可以搭配有不同的音乐，而转场效果对应的转场时间还可以与成片模板的音乐节奏点相匹配。

在一种实施方式中，目标成片模板可以是从候选成片模板中确定的，候选成片模板可以是从成片模板库中确定的。成片模板库中可以包括多个预设的成片模板，考虑到成片模板库中的成片模板过多，在确定目标成片模板时，可以先从成片模板库中筛选出候选成片模板，再从候选成片模板中确定目标成片模板，减少筛选的工作量。

在筛选候选成片模板时可以有多种实施方式。在一种实施方式中，可以根据目标素材视频的语义信息，确定待生成影片的风格类型。比如，可以根据目标素材视频的语义信息，确定(多数)目标素材视频对应的主题，如亲子、自然、城市、美食等，从而，可以根据该确定出的主题对成片模板库中的成片模板进行筛选，筛选出与该主题匹配的候选成片模板。

而从候选成片模板中确定目标成片模板时，也可以有多种方式。在一种实施方式中，由于不同的候选成片模板有不同的特征，比如有不同的音乐、不同的视频空位元素、不同的转场效果等，因此，可以预先设定不同特征对应的优先级，再按照从高到低的优先级，将候选成片模板的每种特征分别与目标素材视频的语义信息进行匹配，每一次匹配后可以根据匹配结果进行一次筛选，从而最终筛选出最合适的目标成片模板。在一种实施方式中，由于语义信息可以包括视频中不同片段的语义信息，因此，可以利用不同片段的语义信息，模拟出将视频片段导入候选成片模板的视频空位的各种组合，从而，可以根据视频片段与视频空位的匹配度，相邻视频空位之间过渡的平滑度，计算出各种组合的得分，将得分最高的组合的候选成片模板确定为目标成片模板，且该目标成片模板中各视频空位对应的视频片段信息也随之确定。

在目标成片模板与目标成片模板中各视频空位对应的视频片段信息确定后，可以获取视频片段信息对应的目标视频片段，并将目标视频片段导入目标成片模板对应的视频空位，从而生成影片。

由前文可知，目标素材视频是可能用于生成影片的素材视频，而可能用于生成影片的素材视频不一定是当前存储的所有素材视频，在一种实施方式中，目标素材视频可以通过设定的条件从存储的素材视频中筛选得到。其中，设定的条件可以是时间、地点、人物信息、场景信息等一种或多种，通过设定的条件筛选出目标素材视频后，可以获取目标素材视频的语义信息。

需要注意的是，上述的每一种设定的条件可以有多种实施方式，比如，时间条件可以是当天、近两天、近一周、从日期A到日期B等，地点条件可以是景点、城市、国家、家、公司等，人物条件可以是具体的人如小明，也可以是男、女、老、少等抽象的类别，场景条件可以是白天、黑夜、雨天等环境，也可以是街道、田园等场地，也可以是公交车、天空等物体。在具体的例子中，若设定的条件是当天，则目标素材视频可以包括当天拍摄的所有视频，若设定的条件是A地点，则目标素材视频可以包括A地点拍摄的所有视频，若设定的条件是包括小明，则目标素材视频可以是包含小明的所有视频，若设定的条件是街道，则目标素材视频可以是包含街道的所有视频。

并且，由于目标素材视频可以包括拍摄设备上的外部素材视频，也可以包括终端设备上的本地素材视频，因此，目标素材视频的筛选可以在拍摄设备与终端设备上分别独立的进行。在一种实施方式中，用于筛选目标素材视频的条件可以由用户自行设定，比如，可以在自动剪辑之前与用户进行交互，获取用户设定的筛选条件。在一种实施方式中，终端设备与拍摄设备也可以有各自默认的筛选条件，从而，可以自动剪辑可以直接开始，在用户无感知下自动生成影片，给用户一定的惊喜感。

下面提供一个相对详尽的实施例，该实施例中，用户使用了混剪功能，即目标素材视频还包括本地素材视频。可以参见图3，图3是本申请实施例提供的影片生成方法的交互图。

在自动剪辑开始之前，拍摄设备可以预先完成对本地的素材视频A的语义分析(S300)，比如前文所述的在素材视频拍摄的同时或在充电等的空闲时间进行所述语义分析。可以理解，此处所述本地是相对于拍摄设备的本地。

在自动剪辑开始后，拍摄设备和终端设备可以分别根据各自设定的条件确定目标素材视频(S310a和S310b)，拍摄设备确定出的目标素材视频可以用目标素材视频a指代，终端设备确定的目标素材视频可以用目标素材视频b指导。

在目标素材视频b确定后，终端设备可以对目标素材视频b进行语义分析以获取该目标素材视频b的语义信息(S320)。而拍摄设备在目标素材视频a确定后，可以将目标素材视频a的语义信息发送给终端设备(S330)。

利用目标素材视频a和目标素材视频b的语义信息，可以确定属于目标素材视频a的视频片段信息a和属于目标素材视频b的视频片段信息b(S340)。其中，视频片段信息a可以用于发送给拍摄设备(S350)，以供拍摄设备根据该视频片段信息a对相应的目标素材视频a进行剪辑，得到目标视频片段a(S360a)；而视频片段信息b可以用于终端设备根据该视频片段信息b对目标素材视频b进行剪辑(S360b)，得到目标视频片段b。

拍摄设备可以将目标视频片段a传输给终端设备(S370)，终端设备将目标视频片段a和目标视频片段b导入目标成片模板，从而生成最终的影片(S380)。

在一实施例中，在无人机飞行的过程中，可以实时将拍摄到的素材的语义信息传回遥控终端(包括遥控器和手机)，当拍摄到的素材的语义信息和遥控终端本地存储的素材的语义信息符合预设的规则时，触发所述无人机自动进行拍摄，并控制无人机基于所述预设的规则调整飞行轨迹和姿态，以获取目标拍摄素材。基于目标拍摄素材的实时图传的压缩素材与本地素材进行初步的处理后，可以生成初始预览影片供用户预览。当用户对该初始预览影片进行原片合成操作时，根据所述原片合成操作获取所述目标拍摄素材，并基于所述目标素材和本地素材合成最终影片。通过以上方式，可以在拍摄到的素材与本地存储的素材的语义信息符合预设的规则时，基于该预设的规则控制无人机的飞行和拍摄，无需用户具有专业的拍摄技巧、操控技巧以及灵敏的拍摄嗅觉，可以防止用户错过与本地素材匹配的拍摄素材的拍摄时机，也避免在初始阶段就占用无人机的拍摄内存以及图传带宽，提高用户体验的同时，也节约内存及图传带宽。

对于上述实施例中所涉及的一些步骤的具体实现，在前文中已有相关说明，在此不再赘述。

下面可以参见图4，图4是本申请实施例提供的影片生成方法的另一流程图。该方法可以应用于拍摄设备，该方法包括：

S410、获取目标素材视频的语义信息。

S420、将所述语义信息发送给终端设备。

其中，所述语义信息用于所述终端设备确定生成影片所需的视频片段信息；

S430、获取所述终端设备发送的所述视频片段信息，并根据所述视频片段信息对所述目标素材视频进行剪辑，得到目标视频片段。

S440、将所述目标视频片段传输给所述终端设备。

所述目标视频片段用于所述终端设备生成影片。

可选的，所述视频片段信息用于指示出所述目标视频片段所属的目标素材视频及所述目标视频片段对应的时间段。

可选的，所述目标素材视频的语义信息是通过对目标素材视频进行语义分析得到的。

可选的，所述语义分析是在所述目标素材视频的拍摄过程中进行的。

可选的，所述语义分析是在充电过程中进行的。

可选的，在所述获取目标素材视频的语义信息之前，所述方法还包括：

根据设定的条件，从存储的素材视频中筛选出目标素材视频。

可选的，所述设定的条件是预先设定的默认条件。

可选的，所述设定的条件是由用户设定的。

可选的，所述语义信息包括语义标签。

可选的，所述语义信息包括以下一种或多种：场景识别结果、人物动作检测结果、人物表情检测结果、目标检测结果、构图评价结果、美学评价结果。

以上各实施方式的具体实现，在前文中已有相关说明，在此不再赘述。

下面请参见图5，图5是本申请实施例提供的一种终端设备的结构示意图。该终端设备包括：

通信接口510，用于与拍摄设备通信；

处理器520和存储有计算机程序的存储器530，所述计算机程序被所述处理器执行时实现以下步骤：

根据所述语义信息，确定生成影片所需的视频片段信息；

利用所述目标视频片段生成影片。

可选的，所述处理器在获取与所述视频片段信息对应的目标视频片段时用于，将所述视频片段信息发送给所述拍摄设备后，接收所述拍摄设备根据所述视频片段信息对所述外部素材视频剪辑得到的目标视频片段。

可选的，所述视频片段信息用于指示出所述目标视频片段所属的外部素材视频及所述目标视频片段对应的时间段。

可选的，所述目标素材视频还包括：本地素材视频。

可选的，所述本地素材视频的语义信息是通过以下方式得到的：

对所述本地素材视频进行语义分析，得到所述本地素材视频的语义信息。

可选的，所述目标视频片段还包括：所述本地素材视频的视频片段；

所述处理器在获取与所述视频片段信息对应的目标视频片段时用于，根据所述视频片段信息对所述本地素材视频进行剪辑，得到所述本地素材视频的视频片段。

可选的，所述外部素材视频的语义信息是所述拍摄设备对所述外部素材视频进行语义分析得到的。

可选的，所述处理器在根据所述语义信息，确定生成影片所需的视频片段信息时用于，根据所述语义信息，确定目标成片模板及所述目标成片模板中各视频空位对应的视频片段信息。

可选的，所述目标成片模板是从候选成片模板中确定的，所述候选成片模板是从成片模板库中确定的。

可选的，所述候选成片模板是通过以下方式确定的：

根据所述语义信息，确定待生成影片的风格类型；

根据所述风格类型，从成片模板库中筛选出所述候选成片模板。

可选的，所述处理器在根据所述语义信息，确定目标成片模板及所述目标成片模板中各视频空位对应的视频片段信息用于，利用所述语义信息，计算所述目标素材视频中的视频片段与所述候选成片模板中各视频空位的匹配度，并计算相邻视频空位之间视频过渡的平滑度；根据所述匹配度与所述平滑度，确定目标成片模板及所述目标成片模板中各视频空位对应的目标视频片段。

可选的，所述目标成片模板包括以下一种或多种内容：音乐、转场效果、贴图、视频特效。

可选的，所述处理器在利用所述目标视频片段生成影片时用于，将所述目标视频片段导入所述目标成片模板对应的视频空位，生成影片。

可选的，所述目标素材视频是根据预设的条件自动从存储的素材视频中筛选得到的。

可选的，所述目标素材视频是根据用户设定的条件从存储的素材视频中筛选得到的。

可选的，所述条件包括以下一种或多种：时间、地点、人物信息、场景信息。

可选的，所述语义信息包括语义标签。

本申请实施例提供的终端设备，并不需要拍摄设备将可能用于生成影片的目标素材视频先传输给终端设备，而是可以由终端设备先从拍摄设备处获取目标素材视频的语义信息，利用语义信息确定所需的视频片段信息，从而，只需从拍摄设备处获取视频片段信息对应的目标视频片段即可，无需传输所有的目标素材视频，大大减少了用户的等待时间，提高了自动剪辑的速度。

下面请参见图6，图6是本申请实施例提供的一种拍摄设备的结构示意图。该拍摄设备包括：

摄像头610，用于拍摄素材视频；

通信接口620，用于与终端设备通信；

处理器630和存储有计算机程序的存储器640，所述计算机程序被所述处理器执行时实现以下步骤：

获取目标素材视频的语义信息；

可选的，所述语义分析是在充电过程中进行的。

可选的，所述处理器还用于，在所述获取目标素材视频的语义信息之前，根据设定的条件，从存储的素材视频中筛选出目标素材视频。

可选的，所述设定的条件是预先设定的默认条件。

可选的，所述设定的条件是由用户设定的。

可选的，所述语义信息包括语义标签。

可选的，所述拍摄设备包括可移动平台或相机或云台相机。

本申请实施例提供的拍摄设备，并不需要将可能用于生成影片的目标素材视频先传输给终端设备，而是可以先将目标素材视频的语义信息发送给终端设备，以便终端设备利用语义信息确定所需的视频片段信息，并将该视频片段信息发送给拍摄设备。从而，拍摄设备只将该视频片段信息对应的目标视频片段传输给终端设备，无需传输所有的目标素材视频，大大减少了用户的等待时间，提高了自动剪辑的速度。

下面请参见图7，图7是本申请实施例提供的一种影片生成系统的结构示意图。该系统包括：

终端设备710，用于获取目标素材视频的语义信息，所述语义信息至少包括：从拍摄设备获取的外部素材视频的语义信息；根据所述语义信息，确定生成影片所需的视频片段信息；获取与所述视频片段信息对应的目标视频片段，其中，所述目标视频片段至少包括：从所述拍摄设备获取的所述外部素材视频的视频片段；利用所述目标视频片段生成影片；

拍摄设备720，用于获取所述外部素材视频的语义信息；将所述语义信息发送给所述终端设备；获取所述终端设备发送的所述视频片段信息，并根据所述视频片段信息对所述目标素材视频进行剪辑，得到目标视频片段；将所述目标视频片段传输给所述终端设备。

可选的，所述目标素材视频还包括：本地素材视频，所述终端设备还用于，在本地获取所述本地素材视频的语义信息。

可选的，所述终端设备还用于，对所述本地素材视频进行语义分析，得到所述本地素材视频的语义信息。

所述终端设备还用于，根据所述视频片段信息对所述本地素材视频进行剪辑，得到所述本地素材视频的视频片段。

可选的，所述语义分析是在充电过程中进行的。

可选的，所述终端设备在根据所述语义信息，确定生成影片所需的视频片段信息时用于，根据所述语义信息，确定目标成片模板及所述目标成片模板中各视频空位对应的视频片段信息。

可选的，所述候选成片模板是通过以下方式确定的：

根据所述语义信息，确定待生成影片的风格类型；

可选的，所述终端设备在根据所述语义信息，确定目标成片模板及所述目标成片模板中各视频空位对应的视频片段信息用于，利用所述语义信息，计算所述目标素材视频中的视频片段与所述候选成片模板中各视频空位的匹配度，并计算相邻视频空位之间视频过渡的平滑度；根据所述匹配度与所述平滑度，确定目标成片模板及所述目标成片模板中各视频空位对应的目标视频片段。

可选的，所述终端设备在利用所述目标视频片段生成影片时用于，将所述目标视频片段导入所述目标成片模板对应的视频空位，生成影片。

可选的，所述语义信息包括语义标签。

本申请实施例提供的影片生成系统，并不需要拍摄设备将可能用于生成影片的目标素材视频先传输给终端设备，而是可以由终端设备先从拍摄设备处获取目标素材视频的语义信息，利用语义信息确定所需的视频片段信息，从而，只需从拍摄设备处获取视频片段信息对应的目标视频片段即可，无需传输所有的目标素材视频，大大减少了用户的等待时间，提高了自动剪辑的速度。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的应用于终端设备的影片生成方法。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的应用于拍摄设备的影片生成方法。

以上实施例中提供的技术特征，只要不存在冲突或矛盾，本领域技术人员可以根据实际情况对各个技术特征进行组合，从而构成各种不同的实施例。而本申请文件限于篇幅，未对各种不同的实施例展开说明，但可以理解的是，各种不同的实施例也属于本申请实施例公开的范围。

本申请实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请实施例所提供的方法、设备及系统进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种影片生成方法，应用于终端设备，其特征在于，包括：

获取目标素材视频的语义信息，所述语义信息包括所述目标素材视频至少一帧的内容识别结果，所述语义信息至少包括：从所述终端设备外部的拍摄设备获取的外部素材视频的语义信息，其中，所述外部素材视频的语义信息由所述拍摄设备分析得到；

根据所述语义信息和预设的成片规则，确定生成影片所需的视频片段信息；

将所述视频片段信息发送给所述拍摄设备；

获取与所述视频片段信息对应的目标视频片段；

利用所述目标视频片段生成影片；

所述获取与所述视频片段信息对应的目标视频片段，包括：

将所述视频片段信息发送给所述拍摄设备后，接收所述拍摄设备根据所述视频片段信息对所述外部素材视频剪辑得到的至少部分所述目标视频片段。

2.根据权利要求1所述的方法，其特征在于，所述视频片段信息用于指示出所述目标视频片段所属的外部素材视频及所述目标视频片段对应的时间段。

3.根据权利要求1所述的方法，其特征在于，所述目标素材视频还包括：本地素材视频。

4.根据权利要求3所述的方法，其特征在于，所述本地素材视频的语义信息是通过以下方式得到的：

5.根据权利要求3所述的方法，其特征在于，所述目标视频片段还包括：所述本地素材视频的视频片段；

所述获取与所述视频片段信息对应的目标视频片段，包括：

根据所述视频片段信息对所述本地素材视频进行剪辑，得到所述本地素材视频的视频片段。

6.根据权利要求1所述的方法，其特征在于，所述外部素材视频的语义信息是所述拍摄设备对所述外部素材视频进行语义分析得到的。

7.根据权利要求1所述的方法，其特征在于，所述根据所述语义信息，确定生成影片所需的视频片段信息，包括：

根据所述语义信息，确定目标成片模板及所述目标成片模板中各视频空位对应的视频片段信息。

8.根据权利要求7所述的方法，其特征在于，所述目标成片模板是从候选成片模板中确定的，所述候选成片模板是从成片模板库中确定的。

9.根据权利要求8所述的方法，其特征在于，所述候选成片模板是通过以下方式确定的：

根据所述语义信息，确定待生成影片的风格类型；

10.根据权利要求8所述的方法，其特征在于，所述根据所述语义信息，确定目标成片模板及所述目标成片模板中各视频空位对应的视频片段信息，包括：

利用所述语义信息，计算所述目标素材视频中的视频片段与所述候选成片模板中各视频空位的匹配度，并计算相邻视频空位之间视频过渡的平滑度；

根据所述匹配度与所述平滑度，确定目标成片模板及所述目标成片模板中各视频空位对应的目标视频片段。

11.根据权利要求7所述的方法，其特征在于，所述目标成片模板包括以下一种或多种内容：音乐、转场效果、贴图、视频特效。

12.根据权利要求7所述的方法，其特征在于，所述利用所述目标视频片段生成影片，包括：

将所述目标视频片段导入所述目标成片模板对应的视频空位，生成影片。

13.根据权利要求1所述的方法，其特征在于，所述目标素材视频是根据预设的条件自动从存储的素材视频中筛选得到的。

14.根据权利要求1所述的方法，其特征在于，所述目标素材视频是根据用户设定的条件从存储的素材视频中筛选得到的。

15.根据权利要求13或14所述的方法，其特征在于，所述条件包括以下一种或多种：时间、地点、人物信息、场景信息。

16.根据权利要求1所述的方法，其特征在于，所述语义信息包括语义标签。

17.根据权利要求1所述的方法，其特征在于，所述语义信息包括以下一种或多种：场景识别结果、人物动作检测结果、人物表情检测结果、目标检测结果、构图评价结果、美学评价结果。

18.一种影片生成方法，应用于拍摄设备，其特征在于，包括：

对目标素材视频进行分析，并获取所述目标素材视频的语义信息，所述语义信息包括所述目标素材视频至少一帧的内容识别结果；

将所述语义信息发送给所述拍摄设备外部的终端设备，其中，所述语义信息用于所述终端设备确定生成影片所需的视频片段信息；

19.根据权利要求18所述的方法，其特征在于，所述视频片段信息用于指示出所述目标视频片段所属的目标素材视频及所述目标视频片段对应的时间段。

20.根据权利要求18所述的方法，其特征在于，所述目标素材视频的语义信息是通过对目标素材视频进行语义分析得到的。

21.根据权利要求20所述的方法，其特征在于，所述语义分析是在所述目标素材视频的拍摄过程中进行的。

22.根据权利要求20所述的方法，其特征在于，所述语义分析是在充电过程中进行的。

23.根据权利要求18所述的方法，其特征在于，在所述获取目标素材视频的语义信息之前，所述方法还包括：

24.根据权利要求23所述的方法，其特征在于，所述设定的条件是预先设定的默认条件。

25.根据权利要求23所述的方法，其特征在于，所述设定的条件是由用户设定的。

26.根据权利要求18所述的方法，其特征在于，所述语义信息包括语义标签。

27.根据权利要求18所述的方法，其特征在于，所述语义信息包括以下一种或多种：场景识别结果、人物动作检测结果、人物表情检测结果、目标检测结果、构图评价结果、美学评价结果。

28.一种终端设备，其特征在于，包括：

通信接口，用于与所述终端设备外部的拍摄设备通信；

获取目标素材视频的语义信息，所述语义信息包括所述目标素材视频至少一帧的内容识别结果，所述语义信息至少包括：从所述拍摄设备获取的外部素材视频的语义信息，其中，所述外部素材视频的语义信息由所述拍摄设备分析得到；

将所述视频片段信息发送给所述拍摄设备；

获取与所述视频片段信息对应的目标视频片段；

利用所述目标视频片段生成影片；

所述获取与所述视频片段信息对应的目标视频片段，包括：

29.根据权利要求28所述的终端设备，其特征在于，所述视频片段信息用于指示出所述目标视频片段所属的外部素材视频及所述目标视频片段对应的时间段。

30.根据权利要求28所述的终端设备，其特征在于，所述目标素材视频还包括：本地素材视频。

31.根据权利要求30所述的终端设备，其特征在于，所述本地素材视频的语义信息是通过以下方式得到的：

32.根据权利要求30所述的终端设备，其特征在于，所述目标视频片段还包括：所述本地素材视频的视频片段；

33.根据权利要求28所述的终端设备，其特征在于，所述外部素材视频的语义信息是所述拍摄设备对所述外部素材视频进行语义分析得到的。

34.根据权利要求28所述的终端设备，其特征在于，所述处理器在根据所述语义信息，确定生成影片所需的视频片段信息时用于，根据所述语义信息，确定目标成片模板及所述目标成片模板中各视频空位对应的视频片段信息。

35.根据权利要求34所述的终端设备，其特征在于，所述目标成片模板是从候选成片模板中确定的，所述候选成片模板是从成片模板库中确定的。

36.根据权利要求35所述的终端设备，其特征在于，所述候选成片模板是通过以下方式确定的：

根据所述语义信息，确定待生成影片的风格类型；

37.根据权利要求35所述的终端设备，其特征在于，所述处理器在根据所述语义信息，确定目标成片模板及所述目标成片模板中各视频空位对应的视频片段信息用于，利用所述语义信息，计算所述目标素材视频中的视频片段与所述候选成片模板中各视频空位的匹配度，并计算相邻视频空位之间视频过渡的平滑度；根据所述匹配度与所述平滑度，确定目标成片模板及所述目标成片模板中各视频空位对应的目标视频片段。

38.根据权利要求34所述的终端设备，其特征在于，所述目标成片模板包括以下一种或多种内容：音乐、转场效果、贴图、视频特效。

39.根据权利要求34所述的终端设备，其特征在于，所述处理器在利用所述目标视频片段生成影片时用于，将所述目标视频片段导入所述目标成片模板对应的视频空位，生成影片。

40.根据权利要求28所述的终端设备，其特征在于，所述目标素材视频是根据预设的条件自动从存储的素材视频中筛选得到的。

41.根据权利要求28所述的终端设备，其特征在于，所述目标素材视频是根据用户设定的条件从存储的素材视频中筛选得到的。

42.根据权利要求40或41所述的终端设备，其特征在于，所述条件包括以下一种或多种：时间、地点、人物信息、场景信息。

43.根据权利要求28所述的终端设备，其特征在于，所述语义信息包括语义标签。

44.根据权利要求28所述的终端设备，其特征在于，所述语义信息包括以下一种或多种：场景识别结果、人物动作检测结果、人物表情检测结果、目标检测结果、构图评价结果、美学评价结果。

45.一种拍摄设备，其特征在于，包括：

摄像头，用于拍摄素材视频；

通信接口，用于与所述拍摄设备外部的终端设备通信；

将所述语义信息发送给所述终端设备，其中，所述语义信息用于所述终端设备确定生成影片所需的视频片段信息；

46.根据权利要求45所述的拍摄设备，其特征在于，所述视频片段信息用于指示出所述目标视频片段所属的目标素材视频及所述目标视频片段对应的时间段。

47.根据权利要求45所述的拍摄设备，其特征在于，所述目标素材视频的语义信息是通过对目标素材视频进行语义分析得到的。

48.根据权利要求47所述的拍摄设备，其特征在于，所述语义分析是在所述目标素材视频的拍摄过程中进行的。

49.根据权利要求47所述的拍摄设备，其特征在于，所述语义分析是在充电过程中进行的。

50.根据权利要求45所述的拍摄设备，其特征在于，所述处理器还用于，在所述获取目标素材视频的语义信息之前，根据设定的条件，从存储的素材视频中筛选出目标素材视频。

51.根据权利要求50所述的拍摄设备，其特征在于，所述设定的条件是预先设定的默认条件。

52.根据权利要求50所述的拍摄设备，其特征在于，所述设定的条件是由用户设定的。

53.根据权利要求45所述的拍摄设备，其特征在于，所述语义信息包括语义标签。

54.根据权利要求45所述的拍摄设备，其特征在于，所述语义信息包括以下一种或多种：场景识别结果、人物动作检测结果、人物表情检测结果、目标检测结果、构图评价结果、美学评价结果。

55.根据权利要求45所述的拍摄设备，其特征在于，所述拍摄设备包括可移动平台或相机或云台相机。

56.一种影片生成系统，其特征在于，包括：

终端设备，用于获取目标素材视频的语义信息，所述语义信息包括所述目标素材视频至少一帧的内容识别结果，所述语义信息至少包括：从所述终端设备外部的拍摄设备获取的外部素材视频的语义信息，所述外部素材视频的语义信息由所述拍摄设备分析得到；根据所述语义信息和预设的成片规则，确定生成影片所需的视频片段信息；将所述视频片段信息发送给所述拍摄设备；获取与所述视频片段信息对应的目标视频片段；所述获取与所述视频片段信息对应的目标视频片段，包括：将所述视频片段信息发送给所述拍摄设备后，接收所述拍摄设备根据所述视频片段信息对所述外部素材视频剪辑得到的至少部分所述目标视频片段；

拍摄设备，用于对所述外部素材视频进行分析，并获取所述外部素材视频的语义信息；将所述语义信息发送给所述终端设备；获取所述终端设备发送的所述视频片段信息，并根据所述视频片段信息对所述目标素材视频进行剪辑，得到目标视频片段；将所述目标视频片段传输给所述终端设备。

57.根据权利要求56所述的系统，其特征在于，所述视频片段信息用于指示出所述目标视频片段所属的外部素材视频及所述目标视频片段对应的时间段。

58.根据权利要求56所述的系统，其特征在于，所述目标素材视频还包括：本地素材视频，所述终端设备还用于，在本地获取所述本地素材视频的语义信息。

59.根据权利要求58所述的系统，其特征在于，所述终端设备还用于，对所述本地素材视频进行语义分析，得到所述本地素材视频的语义信息。

60.根据权利要求58所述的系统，其特征在于，所述目标视频片段还包括：所述本地素材视频的视频片段；

61.根据权利要求56所述的系统，其特征在于，所述外部素材视频的语义信息是所述拍摄设备对所述外部素材视频进行语义分析得到的。

62.根据权利要求61所述的系统，其特征在于，所述语义分析是在所述目标素材视频的拍摄过程中进行的。

63.根据权利要求61所述的系统，其特征在于，所述语义分析是在充电过程中进行的。

64.根据权利要求56所述的系统，其特征在于，所述终端设备在根据所述语义信息，确定生成影片所需的视频片段信息时用于，根据所述语义信息，确定目标成片模板及所述目标成片模板中各视频空位对应的视频片段信息。

65.根据权利要求64所述的系统，其特征在于，所述目标成片模板是从候选成片模板中确定的，所述候选成片模板是从成片模板库中确定的。

66.根据权利要求65所述的系统，其特征在于，所述候选成片模板是通过以下方式确定的：

根据所述语义信息，确定待生成影片的风格类型；

67.根据权利要求65所述的系统，其特征在于，所述终端设备在根据所述语义信息，确定目标成片模板及所述目标成片模板中各视频空位对应的视频片段信息用于，利用所述语义信息，计算所述目标素材视频中的视频片段与所述候选成片模板中各视频空位的匹配度，并计算相邻视频空位之间视频过渡的平滑度；根据所述匹配度与所述平滑度，确定目标成片模板及所述目标成片模板中各视频空位对应的目标视频片段。

68.根据权利要求64所述的系统，其特征在于，所述目标成片模板包括以下一种或多种内容：音乐、转场效果、贴图、视频特效。

69.根据权利要求64所述的系统，其特征在于，所述终端设备在利用所述目标视频片段生成影片时用于，将所述目标视频片段导入所述目标成片模板对应的视频空位，生成影片。

70.根据权利要求56所述的系统，其特征在于，所述目标素材视频是根据预设的条件自动从存储的素材视频中筛选得到的。

71.根据权利要求56所述的系统，其特征在于，所述目标素材视频是根据用户设定的条件从存储的素材视频中筛选得到的。

72.根据权利要求70或71所述的系统，其特征在于，所述条件包括以下一种或多种：时间、地点、人物信息、场景信息。

73.根据权利要求56所述的系统，其特征在于，所述语义信息包括语义标签。

74.根据权利要求56所述的系统，其特征在于，所述语义信息包括以下一种或多种：场景识别结果、人物动作检测结果、人物表情检测结果、目标检测结果、构图评价结果、美学评价结果。

75.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-17任一项所述的影片生成方法。

76.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求18-27任一项所述的影片生成方法。