CN111835986B

CN111835986B - 视频编辑处理方法、装置及电子设备

Info

Publication number: CN111835986B
Application number: CN202010657081.8A
Authority: CN
Inventors: 刘瑶; 陈仁健
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2021-08-24
Anticipated expiration: 2040-07-09
Also published as: CN111835986A

Abstract

本申请提供了一种视频编辑方法、装置、电子设备及计算机可读存储介质；方法包括：响应于针对多媒体素材的视频编辑操作，在人机交互界面中呈现多个候选的音频以及多个候选的节奏点特效模板；其中，所述节奏点特效模板中的特效是与所述音频中的节奏点对应的；响应于针对所述多个候选的音频以及所述多个候选的节奏点特效模板的选择操作，呈现视频；其中，所述视频是根据被选中的音频、被选中的节奏点特效模板以及所述多媒体素材生成。通过本申请，能够提升视频编辑处理的灵活性，加强用户体验。

Description

视频编辑处理方法、装置及电子设备

技术领域

本申请涉及视频技术，尤其涉及一种视频编辑方法、装置、电子设备及计算机可读存储介质。

背景技术

视频编辑处理是视频技术的一个重要的应用方向，在进行视频编辑处理时，存在制作卡点视频的需求，其中，卡点视频是指在特定的时间点添加有特效的视频，具有良好的播放效果。

在相关技术提供的方案中，通常是预先在某一个音频的特定时间点设置需要添加的特效，得到卡点模板，在需要进行视频编辑处理时，将卡点模板应用至某个素材中，得到卡点视频。但是，卡点模板的卡点效果只能与特定的音频匹配，在切换音频之后便不再具有卡点效果，即视频编辑处理的灵活性差，用户体验不佳。

发明内容

本申请实施例提供一种视频编辑方法、装置、电子设备及计算机可读存储介质，能够提升视频编辑处理的灵活性，加强用户体验。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频编辑处理方法，包括：

响应于针对多媒体素材的视频编辑操作，在人机交互界面中呈现多个候选的音频以及多个候选的节奏点特效模板；

其中，所述节奏点特效模板中的特效是与所述音频中的节奏点对应的；

响应于针对所述多个候选的音频以及所述多个候选的节奏点特效模板的选择操作，呈现视频；

其中，所述视频是根据被选中的音频、被选中的节奏点特效模板以及所述多媒体素材生成。

本申请实施例提供一种视频编辑处理装置，包括：

模板呈现模块，用于响应于针对多媒体素材的视频编辑操作，在人机交互界面中呈现多个候选的音频以及多个候选的节奏点特效模板；

视频呈现模块，用于响应于针对所述多个候选的音频以及所述多个候选的节奏点特效模板的选择操作，呈现视频；

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的视频编辑处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的视频编辑处理方法。

本申请实施例具有以下有益效果：

将音频与节奏点对应的特效进行拆分，将用户在人机交互界面中选中的音频以及节奏点特效模板应用于多媒体素材，得到视频(卡点视频)，如此，提升了视频编辑处理的灵活性，即用户可以自由地组合不同的音频及节奏点特效模板，最终得到的视频均具有卡点效果，加强了用户体验。

附图说明

图1A是相关技术提供的视频编辑处理的示意图；

图1B是相关技术提供的视频编辑处理的示意图；

图2是本申请实施例提供的视频编辑处理系统的一个可选的架构示意图；

图3是本申请实施例提供的终端设备的一个可选的架构示意图；

图4A是本申请实施例提供的视频编辑处理方法的一个可选的流程示意图；

图4B是本申请实施例提供的视频编辑处理方法的一个可选的流程示意图；

图4C是本申请实施例提供的视频编辑处理方法的一个可选的流程示意图；

图4D是本申请实施例提供的视频编辑处理方法的一个可选的流程示意图；

图5A是本申请实施例提供的包括多个候选的多媒体素材的人机交互界面的一个可选的示意图；

图5B是本申请实施例提供的包括多个候选的音乐的人机交互界面的一个可选的示意图；

图5C是本申请实施例提供的包括多个候选的一键出片模板的人机交互界面的一个可选的示意图；

图6是本申请实施例提供的视频编辑处理方法的一个可选的流程示意图；

图7是本申请实施例提供的音乐中的节奏点的一个可选的示意图；

图8是本申请实施例提供的普通特效和卡点特效的一个可选的示意图；

图9A是本申请实施例提供的生成的视频的一个可选的示意图；

图9B是本申请实施例提供的生成的视频的一个可选的示意图；

图9C是本申请实施例提供的生成的视频的一个可选的示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。在以下的描述中，涉及到的多个是指至少两个。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)多媒体(Multimedia)：泛指文本、声音及图像等多种媒体形式，在本申请实施例中，多媒体素材可以是图像素材或者视频素材等。

2)人机交互界面：能够支持人机交互操作的图形界面，即人机交互界面可以呈现特定的内容，也可以接收用户执行的操作，如选择操作。

3)特效：指改变原始视频画面的效果，包括但不限于画面效果(如滤镜等)、转场效果及时间特效(快慢速及画面定格等)。

4)节奏点：在音频中具有特定特色的时间点，可根据实际应用场景进行设定。例如，可以设定一种类型的节奏点为高光点，具体为音频中副歌部分的起始时间点。

5)节奏点特效模板：包括至少一个特效，其中每一个特效对应特定类型的节奏点。

6)人工智能(Artificial Intelligence，AI)：利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。利用人工智能技术可以构建人工智能模型，例如机器学习模型或深度学习模型等。

7)数据库(Database)：是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合，用户可以对数据库中的数据执行新增、查询、更新及删除等操作。

针对于卡点视频的制作，在相关技术提供的方案中，通常是由制作者根据某一个音频制作对应的卡点模板，卡点模板规定了在音频的不同时间点所应用的特效以及需要选择的素材数量。用户在进行视频编辑处理时，根据卡点模板选择对应数量的素材，再将卡点模板应用至选择的素材中，得到卡点视频。

作为示例，提供了如图1A示出的视频编辑处理的示意图，在图1A的左图中，呈现了多个卡点模板的名称以及每个卡点模板的制作者名称，例如对于卡点模板11来说，其制作者的名称为制作者1，此外，卡点模板11还规定了需要选择的素材数量为19个(即图1A中示出的19段)，以及每一个素材在最终的卡点视频中所占的时长。当用户选择了卡点模板11时，在图1A的右图中呈现终端设备本地存储的素材，用户可以选择其中的19个素材来制作卡点视频。

此外，还提供了如图1B示出的视频编辑处理的示意图，在图1B的左图中，呈现了多个卡点模板的名称，例如对于卡点模板12来说，其名称为模板名称4，规定了需要选择的素材数量为8个。当用户选择了卡点模板12时，在图1B的右图中呈现本地的素材，用户可以选择其中的8个素材来制作卡点视频。

相关技术提供的方案主要存在的问题是，卡点模板中的特效是针对某一个音频来设置的，当用户已应用某一个卡点模板，并将该卡点模板对应的音频切换至另一个音频时，得到的视频便不再具有卡点效果。即卡点模板依赖于特定的音频，视频编辑处理的灵活性差，用户体验不佳。

本申请实施例提供一种视频编辑方法、装置、电子设备及计算机可读存储介质，能够提升视频编辑处理的灵活性，加强用户体验。下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的终端设备，也可以实施为服务器。

在一些实施例中，以本申请提供的电子设备是终端设备(下文中也简称为终端)为例，本申请实施例提供的视频编辑方法可以由终端设备单独实施。

作为示例，终端设备通过运行各种形式的计算机程序，例如操作系统、客户端、功能插件、软件模块和脚本，实现本申请实施例提供的视频编辑处理的方案，计算机程序能够提供音频与节奏点特效模板的多种组合方式，便于用户挑选出自己感兴趣的音频和节奏点特效模板生成视频，提升了视频编辑处理的灵活性，即提高了电子设备自身的视频编辑处理性能，适用于需要制作卡点视频的多种场景。

在一些实施例中，以本申请提供的电子设备是服务器为例，本申请实施例提供的视频编辑方法可以由终端设备和服务器协同实现。服务器通过运行各种形式的计算机程序，例如云计算程序，供终端设备调用执行，以实现本申请实施例提供的视频编辑处理的方案，服务器将响应于终端设备的调用，向终端设备发送视频编辑处理过程中的各种数据，以使终端设备呈现视频编辑处理的各种结果和最终结果。

参见图2，图2是本申请实施例提供的视频编辑处理系统100的一个可选的架构示意图，终端设备400通过网络300连接服务器200，服务器200连接数据库500，其中，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，本申请实施例提供的视频编辑方法可以由终端设备单独实施。例如，终端设备400在图形界面410(即人机交互界面)中呈现本地的多个候选的多媒体素材，并响应于针对多个候选的多媒体素材的选择操作，将被选中的多媒体素材确定为用于进行视频编辑的多媒体素材。

然后，针对于该被选中的多媒体素材，终端设备400在图形界面410中呈现本地的多个候选的音频以及多个候选的节奏点特效模板，如图2示出的候选的音频1和2，以及候选的节奏点特效模板1和2。终端设备400响应于针对多个候选的音频以及多个候选的节奏点特效模板的选择操作，根据被选中的音频、被选中的节奏点特效模板以及多媒体素材生成视频(卡点视频)，并将视频呈现于图形界面410中，便于用户浏览。此外，终端设备400还可在图形界面410中呈现针对于生成的视频的编辑选项，便于用户根据编辑选项，对视频进行进一步编辑，例如裁剪掉视频的一部分，切换视频中的若干个多媒体素材，切换应用于视频中的音频或节奏点特效模板等。

在一些实施例中，本申请实施例提供的视频编辑方法可以由终端设备和服务器协同实现。例如，终端设备400在图形界面410中呈现本地的多个候选的多媒体素材，并响应于针对多个候选的多媒体素材的选择操作，将被选中的多媒体素材发送至服务器200。服务器200根据被选中的多媒体素材，从数据库500中获取与被选中的多媒体素材关联的多个候选的音频以及多个候选的节奏点特效模板，并将多个候选的音频以及多个候选的节奏点特效模板发送至终端设备400，以在图形界面410中呈现。这里，服务器200可以向终端设备400发送完整版的候选的音频及候选的节奏点特效模板，也可以发送预览版本，例如，可以向终端设备400发送候选的音频的名称及候选的节奏点特效模板的名称，候选的音频的试听部分(如候选的音频的前10秒)，候选的节奏点特效模板中的部分特效等，以减小数据通信压力。值得说明的是，除了数据库之外，音频和节奏点特效模板也可以存储于其他位置，例如服务器200的分布式文件系统或者区块链等。

若服务器200发送的是完整版本，则服务器200还可向终端设备400发送每个候选的音频中的节奏点(例如以节奏点模板的形式发送至终端设备400)，终端设备400响应于针对多个候选的音频以及多个候选的节奏点特效模板的选择操作，根据被选中的音频、该音频中的节奏点、被选中的节奏点特效模板以及多媒体素材生成视频，并呈现于图形界面410中。

若服务器200发送的是预览版本，则终端设备400响应于针对多个候选的音频以及多个候选的节奏点特效模板的选择操作，可以向服务器200请求完整版本的被选中的音频、该音频中的节奏点以及被选中的节奏点特效模板。然后，终端设备400基于请求得到的完整版本的相应数据，生成视频，并呈现于图形界面410中。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，其中，云服务可以是视频编辑处理服务，供终端设备400进行调用，以向终端设备400发送候选的音频、候选的节奏点特效模板以及生成的视频等。终端设备400可以是智能手机、平板电脑、笔记本电脑及台式计算机等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

以本申请实施例提供的电子设备是终端设备为例说明，可以理解的，对于电子设备是服务器的情况，将图3中示出的结构中的部分(例如用户接口、呈现模块和输入处理模块)可以缺省。参见图3，图3是本申请实施例提供的终端设备400的结构示意图，图3所示的终端设备400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端设备400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉呈现屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏呈现屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，呈现屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和呈现内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的视频编辑处理装置可以采用软件方式实现，图3示出了存储在存储器450中的视频编辑处理装置455，其可以是程序和插件等形式的软件，包括以下软件模块：模板呈现模块4551和视频呈现模块4552，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的视频编辑处理装置可以采用硬件方式实现，作为示例，本申请实施例提供的视频编辑处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的视频编辑处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的视频编辑处理方法。举例来说，当电子设备是终端设备时，可以由终端中运行的各种计算机程序(例如操作系统、客户端、功能插件、软件模块和脚本)等来实现下文所述的步骤。

参见图4A，图4A是本申请实施例提供的视频编辑处理方法的一个可选的流程示意图，将结合图4A示出的步骤进行说明。

在步骤101中，响应于针对多媒体素材的视频编辑操作，在人机交互界面中呈现多个候选的音频以及多个候选的节奏点特效模板；其中，节奏点特效模板中的特效是与音频中的节奏点对应的。

这里，多媒体素材可以是终端设备本地存储的素材，可以是实时采集的素材，也可以是从外界(如互联网)获取的素材。本申请实施例对多媒体素材的类型不做限定，例如可以是图像素材或视频素材等。终端设备响应于针对多媒体素材的视频编辑操作，在人机交互界面中呈现多个候选的音频以及多个候选的节奏点特效模板，便于用户进行选择。其中，节奏点特效模板包括至少一个特效，且每个特效对应一种类型的节奏点，特效与节奏点之间的对应关系可以根据实际应用场景进行预先设定。

在一些实施例中，还包括：在人机交互界面中呈现多个候选的多媒体素材；响应于针对多个候选的多媒体素材的选择操作，将被选中的多媒体素材确定为用于进行视频编辑的多媒体素材。

这里，对多个候选的多媒体素材的呈现顺序不做限定，例如，在候选的多媒体素材是终端设备本地存储的多媒体素材的情况下，可以根据存储时间从近到远的顺序，来依次呈现多个候选的多媒体素材。举例来说，候选的多媒体素材A、B和C的存储时间都在某一天内，A的存储时间是早上八点，B的存储时间是中午十二点，C的存储时间是晚上八点，则依次呈现C、B和A。由于用户在进行视频编辑处理时，通常对存储时间更近的多媒体素材更感兴趣，故通过优先呈现存储时间更近的多媒体素材，能够提升呈现内容的合理性，便于用户快速找到自己需要的多媒体素材。

然后，终端设备响应于针对多个候选的多媒体素材的选择操作，将被选中的多媒体素材确定为用于进行视频编辑的多媒体素材。例如，在被选中的多媒体素材是C的情况下，即确定接收到针对多媒体素材C的视频编辑操作。值得说明的是，被选中的多媒体素材可以是一个或多个。通过上述方式，由用户选择进行视频编辑处理的多媒体素材，提升了对于用户的友好度，加强了用户体验。

在步骤102中，响应于针对多个候选的音频以及多个候选的节奏点特效模板的选择操作，呈现视频；其中，视频是根据被选中的音频、被选中的节奏点特效模板以及多媒体素材生成。

这里，响应于针对多个候选的音频以及多个候选的节奏点特效模板的选择操作，根据被选中的音频、被选中的节奏点特效模板以及用于进行视频编辑的多媒体素材，生成视频，并在人机交互界面中呈现视频。其中，生成视频的操作可以由终端设备执行，也可以由服务器执行。若用户对呈现的视频不满意，则可以重新选择视频中应用的音频或节奏点特效模板，重新生成的视频仍具有卡点效果。

在一些实施例中，在任意步骤之间，还包括：执行以下至少一种处理，以确定音频中的节奏点：根据设定的前移时长，对音频中副歌部分的起始时间点进行前移处理，得到新的起始时间点，并将新的起始时间点和副歌部分的结束时间点，确定为音频中的节奏点；将音频中副歌部分的起始时间点和结束时间点中的至少一种，确定为音频中的节奏点；将音频中设定强度的拍子所在的时间点，确定为音频中的节奏点。

在本申请实施例中，音频中的节奏点可以是人为设定的，也可以是根据特定的方式来自动确定的，以音频为音乐的情况作为示例，提供了以下几种确定节奏点的方式：

1)根据设定的前移时长，对音频中副歌部分(高潮部分)的起始时间点进行前移处理，得到新的起始时间点，并将新的起始时间点和副歌部分的结束时间点，确定为音频中的节奏点。其中，前移时长可根据实际应用场景进行设定，如设定为5秒。

2)将音频中副歌部分的起始时间点和结束时间点中的至少一种，确定为音频中的节奏点。

3)将音频中设定强度的拍子所在的时间点，确定为音频中的节奏点。例如，音频为四分之四拍，即以四分音符为一拍，每小节包括四拍，每小节的四个拍的强弱规律是强-弱-次强-弱，则设定强度的拍子可以是强拍和次强拍，即是将强拍和次强拍所在的时间点确定为节奏点。

值得说明的是，副歌部分可以预先设定，也可以自动确定，例如可以将音频中的歌词部分确定为副歌部分，也可以确定出音频中歌词重合程度大于重合程度阈值的两个歌词部分，将两个歌词部分中的任一部分确定为副歌部分。另外，在呈现多个候选的音频之前，可以预先确定每个候选的音频中的节奏点；也可以在确定出被选中的音频之后，再确定被选中的音频中的节奏点。通过上述方式，提升了确定节奏点的灵活性，可以根据实际应用场景来设定节奏点的类型。

在一些实施例中，将新的起始时间点和副歌部分的结束时间点，确定为音频中的节奏点之后，还包括：根据新的起始时间点和副歌部分的结束时间点，对音频进行裁剪处理。

在音频为音乐的情况下，其时长通常在三分钟以上，而最终生成的视频(卡点视频)的时长通常要求较短，故可对音频进行进一步裁剪。由于音频中的副歌部分通常是最重要的部分，故可以根据音频中新的起始时间点和副歌部分的结束时间点，对音频进行裁剪处理，如此，裁剪处理后的音频即可用于生成视频。通过上述方式，能够保留音频中重要程度较高的部分，提升对音频进行裁剪处理的有效性。

在一些实施例中，可以通过这样的方式来实现上述的将音频中设定强度的拍子所在的时间点，确定为音频中的节奏点：遍历音频中设定强度的拍子所在的时间点，确定遍历到的时间点与前一个时间点之间的差值时长，并当差值时长小于时长阈值时，丢弃遍历到的时间点；将音频中保留的时间点，确定为音频中的节奏点。

这里，以设定强度的拍子为强拍举例，并且为了便于区分，将强拍所在的时间点命名为鼓点。在用于进行视频编辑的多媒体素材的数量包括多个的情况下，鼓点可以是不同的多媒体素材进行切换的时间点，为了保证鼓点的数量不会过多(避免转场过快)，可以对鼓点进行筛选。

在筛选过程中，对于一个音频来说，可以遍历音频中的多个鼓点，并确定遍历到的鼓点与前一个鼓点之间的差值时长(可以是遍历到的鼓点减去前一个鼓点)，当该差值时长小于时长阈值时，丢弃遍历到的时间点，其中，时长阈值可以根据实际应用场景进行设定。遍历完成后，将音频中仍保留的鼓点，确定为音频中的节奏点。通过上述方式，能够对音频中的节奏点进行筛选，防止节奏点过多。

如图4A所示，本申请实施例将音频和特效进行拆分，使得用户可以任意地组合音频和节奏点特效模板，并且在切换音频或节奏点特效模板后，生成的视频仍具有卡点效果，提升了视频编辑处理的灵活性。

在一些实施例中，参见图4B，图4B是本申请实施例提供的视频编辑处理方法的一个可选的流程示意图，图4A示出的步骤101可以通过步骤201至步骤203实现，将结合各步骤进行说明。

在步骤201中，响应于针对多媒体素材的视频编辑操作，对多媒体素材进行内容识别处理，得到目标素材类型。

在本申请实施例中，呈现于人机交互界面的候选的音频以及节奏点特效模板可以是与多媒体素材适配的。例如，响应于针对多媒体素材的视频编辑操作，对用户进行视频编辑的多媒体素材进行内容识别处理，得到目标素材类型，该目标素材类型用于表示多媒体素材的风格。例如，预先设定内容“儿童”对应的目标素材类型是“萌娃”，则在识别出多媒体素材中包括儿童时，确定对应的目标素材类型是萌娃。

在一些实施例中，可以通过这样的方式来实现上述的对多媒体素材进行内容识别处理，得到目标素材类型：获取多个样本多媒体素材、以及与每个样本多媒体素材对应的样本素材类型；通过人工智能模型对样本多媒体素材进行内容识别处理，得到待对比的素材类型；根据样本多媒体素材对应的样本素材类型与待对比的素材类型之间的差异，在人工智能模型中进行反向传播，并在反向传播的过程中，更新人工智能模型的权重参数；通过更新后的人工智能模型，对多媒体素材进行内容识别处理，得到目标素材类型。

在本申请实施例中，可以通过人工智能模型来实现内容识别处理，其中，对人工智能模型的类型不做限定，例如人工智能模型可以是神经网络模型等。

首先，对人工智能模型进行训练，例如，获取多个样本多媒体素材、以及与每个样本多媒体素材对应的样本素材类型，其中，样本多媒体素材可以是图像素材，样本素材类型可以通过人为标注得到。通过人工智能模型对样本多媒体素材进行内容识别处理，即进行前向传播，得到待对比的素材类型。然后，根据样本多媒体素材对应的样本素材类型与待对比的素材类型之间的差异，在人工智能模型中进行反向传播，并在反向传播的过程中，更新人工智能模型的权重参数，直至满足设定的收敛条件。其中，差异即为损失值，可以通过损失函数(如交叉熵损失函数等)进行计算得到；收敛条件可以根据实际应用场景进行设定，例如可以是设定的训练轮数，也可以是设定的准确率阈值。

完成对人工智能模型的权重参数的更新后，可以利用更新后的人工智能模型，对用于进行视频编辑的多媒体素材进行内容识别处理，得到目标素材类型。在用于进行视频编辑的多媒体素材的类型不同的情况下，处理方式也存在不同。举例来说，当多媒体素材是图像素材时，通过更新后的人工智能模型，直接对多媒体素材进行内容识别处理，得到目标素材类型。当多媒体素材是视频素材时，从多媒体素材中抽取出至少一个视频帧，通过更新后的人工智能模型对视频帧进行内容识别处理，得到视频帧对应的素材类型，并将对应视频帧的数量更多的素材类型，确定为多媒体素材对应的目标素材类型。例如，根据设定的抽帧频率，从多媒体素材中抽取出三个视频帧，经过内容识别处理后，其中两个视频帧的素材类型为萌娃，另外一个视频帧的素材类型为风景，则确定该多媒体素材的目标素材类型为萌娃。

此外，用于视频编辑的多媒体素材可能包括多个，对于该情况，可以将对应多媒体素材的数量更多的目标素材类型，确定为最终的目标素材类型，并根据该最终的目标素材类型执行后续步骤。通过上述方式，基于人工智能的原理提升了得到的目标素材类型的准确性。

在步骤202中，确定与目标素材类型存在关联关系的目标音频类型和目标特效类型。

对于一个音频来说，其对应至少一个音频类型，音频类型用于表示音频的风格，例如音频类型包括可爱、现代及国风等；对于一个特效来说，其对应至少一个特效类型，特效类型用于表示特效的风格，例如特效类型包括欧美复古风、中国风及萌趣等，可以根据实际应用场景进行设定。另外，对于每一种素材类型，预先设定存在关联关系的音频类型和特效类型。例如，对于素材类型萌娃来说，设定存在关联关系的音频类型和特效类型分别是可爱和萌趣，如此，在目标素材类型为萌娃时，确定目标音频类型和目标特效类型分别是可爱和萌趣。

在一些实施例中，也可以通过设定权重的方式来确定关联关系，将权重最大的类型确定为存在关联关系的类型。例如对于素材类型萌娃来说，设定音频类型可爱、现代和国风的权重分别为1、0.5和0.1，由于可爱的权重最大，故确定素材类型萌娃与音频类型可爱之间存在关联关系。而对于另一个素材类型来说，音频类型可爱的权重可能会发生变化，具体可根据实际应用场景进行设定。

在步骤203中，在人机交互界面中呈现符合目标音频类型的多个候选的音频、以及符合目标特效类型的多个候选的节奏点特效模板。

在多个候选的音频中，筛选出符合目标音频类型的音频，并呈现于人机交互界面中，例如某个音频对应的音频类型包括可爱和现代，目标音频类型为可爱，则确定该音频符合目标音频类型；在多个候选的节奏点特效模板，筛选出符合目标音频类型的节奏点特效模板，并呈现于人机交互界面中。其中，节奏点特效模板可以由相关制作者进行预先制作，当节奏点特效模板中设定数量的特效符合目标特效类型时，确定该节奏点特效模板符合目标特效类型，设定数量为大于零的整数。

值得说明的是，步骤201至步骤203可以完全在终端设备本地执行，也可以结合终端设备和服务器执行。例如，由服务器执行步骤201和步骤202，并将确定出的符合目标音频类型的多个候选的音频、以及符合目标特效类型的多个候选的节奏点特效模板发送至终端设备，由终端设备在人机交互界面中进行显示。

在一些实施例中，节奏点包括多种类型，且每个类型的节奏点对应多个特效；步骤202之后，还包括：在每个类型的节奏点对应的多个特效中，筛选出符合目标特效类型的特效；其中，每个特效对应至少一种特效类型；将筛选出的特效中与不同类型的节奏点对应的特效进行组合，得到多个节奏点特效模板。

除了预先制作节奏点特效模板之外，也可以在确定出目标特效类型之后，实时生成节奏点特效模板，生成节奏点特效模板的操作可以由终端设备或服务器执行。举例来说，在每个类型的节奏点对应的多个特效中，筛选出符合目标特效类型的特效，并将筛选出的特效中与不同类型的节奏点对应的特效进行组合，得到多个节奏点特效模板，其中，每个节奏点特效模板包括与每个类型的节奏点对应的至少一个特效。通过上述方式，实现了节奏点特效模板的自动生成，并且通过组合特效的方式，提升了节奏点特效模板的多样性。

如图4B所示，本申请实施例通过呈现与多媒体素材风格相同或相近的候选的音频以及候选的节奏点特效模板，有助于提升最终生成的视频的视觉效果，进一步加强了用户体验。

在一些实施例中，参见图4C，图4C是本申请实施例提供的视频编辑处理方法的一个可选的流程示意图，图4A示出的步骤101可更新为步骤301，在步骤301中，响应于针对多媒体素材的视频编辑操作，在人机交互界面中呈现多个候选的音频、多个候选的节奏点特效模板以及多个候选的时间点特效模板；其中，节奏点特效模板中的特效是与音频中的节奏点对应的；时间点特效模板中的特效是与设定的时间点对应的。

除了呈现节奏点特效模板之外，在本申请实施例中，还可呈现多个候选的时间点特效模板，该时间点特效模板中的特效是与设定的时间点对应的。例如，对于时间点特效模板中的某一个特效来说，可以设定该特效对应的时间参数包括startOffset、endOffset和duration中的至少两个，其中，startOffset表示该特效的起始时间点与视频(最终生成的卡点视频)的起始时间点之间的差值时长，该差值时长可以是特效的起始时间点减去视频的起始时间点得到的结果；endOffset表示视频的结束时间点与该特效的结束时间点之间的差值时长，该差值时长可以是视频的结束时间点减去特效的结束时间点得到的结果；duration表示该特效的呈现时长，即持续时长。

与节奏点特效模板中的特效同样地，可以设定时间点特效模板中的特效对应至少一个特效类型。在确定出用于进行视频编辑的多媒体素材的目标素材类型后，确定与目标素材类型存在关联关系的目标特效类型，并在人机交互界面中呈现符合目标特效类型的时间点特效模板。其中，时间点特效模板可以由制作者进行预先制作，也可以在确定出目标特效类型之后，实时生成。

举例来说，对于时间点特效模板中的特效来说，设定添加类型包括片头片尾、文字贴纸、氛围贴纸及滤镜，每一个添加类型对应多个特效，其中，特效的添加类型与特效类型不同，特效类型是用于表示特效的风格，而添加类型是用于表示特效在视频中的添加效果(例如出现位置等)。在确定出目标特效类型后，在每个添加类型对应的多个特效中，筛选出符合目标特效类型的特效，并将筛选出的特效中与不同添加类型对应的特效进行组合，得到多个时间点特效模板，其中，每个时间点特效模板包括与每个添加类型对应的至少一个特效。

在图4C中，图4A示出的步骤102可更新为步骤302，在步骤302中，响应于针对多个候选的音频、多个候选的节奏点特效模板以及多个候选的时间点特效模板的选择操作，呈现视频；其中，视频是根据被选中的音频、被选中的节奏点特效模板、被选中的时间点特效模板以及多媒体素材生成。

这里，根据被选中的音频、被选中的节奏点特效模板、被选中的时间点特效模板以及多媒体素材，生成视频，并将生成的视频呈现于人机交互界面。

如图4C所示，本申请实施例除了节奏点特效模板之外，还提供了时间点特效模板，提升了视频编辑处理的多样性和灵活性。

在一些实施例中，参见图4D，图4D是本申请实施例提供的视频编辑处理方法的一个可选的流程示意图，图4A示出的步骤102可以通过步骤401至步骤402实现，将结合各步骤进行说明。

在步骤401中，当用于进行视频编辑的多媒体素材的数量为多个时，响应于针对多个候选的音频以及多个候选的节奏点特效模板的选择操作，将多个多媒体素材组合为视频。

在步骤101中，接收到的视频编辑操作可能是针对多个多媒体素材，对于该情况，响应于针对多个候选的音频以及多个候选的节奏点特效模板的选择操作，将多个多媒体素材组合为视频。例如，用于进行视频编辑的多媒体素材是在多个候选的多媒体素材中通过选择操作确定的，则可根据用于进行视频编辑的多个多媒体素材的选择顺序，将多个多媒体素材组合为视频。其中，用于进行视频编辑的多个多媒体素材可以全部是图像素材，可以全部是视频素材，也可以部分是图像素材，部分是视频素材。

在一些实施例中，将多个多媒体素材组合为视频之前，还包括：在被选中的音频中，根据设定强度的拍子所在的时间点，确定每个多媒体素材的呈现时长；当多媒体素材为视频素材时，根据对应的呈现时长对多媒体素材进行裁剪处理；其中，裁剪处理后的多个多媒体素材用于组合得到视频。

为了便于理解，以设定强度的拍子为强拍，强拍所在的时间点为鼓点的情况进行举例说明。在生成视频之前，在被选中的音频中，根据鼓点确定每个多媒体素材的呈现时长(持续时长)。

例如，用户在呈现的多个候选的多媒体素材中，依次选择了M₁、M₂和M₃，在被选中的音频中，鼓点从前之后依次包括D₁和D₂，则将D₁减去该音频的起始时间点，得到M₁在视频中的呈现时长；将D₂减去D₁，得到M₂在视频中的呈现时长；将该音频的结束时间点减去D₂，得到M₃在视频中的呈现时长。当确定出的呈现时长的数量大于用于进行视频编辑的多媒体素材的数量时，可以根据多媒体素材的数量，从被选中的音频中的起始时间点或结束时间点开始进行裁剪处理，以使根据裁剪处理后的音频确定出的每个呈现时长，均单独对应一个多媒体素材。以上述例子再次举例，若被选中的音频中，鼓点从前之后依次包括D₁、D₂和D₃，此外音频中还包括与鼓点不同的起始时间点和结束时间点，则可以对该音频进行截取处理，例如将D₃作为该音频的结束时间点，或者将D₁作为该音频的起始时间点，如此，能够使确定出的呈现时长的数量与多媒体素材的数量相同。

当用于视频编辑的某个多媒体素材为图像素材时，直接将对应的呈现时长，作为该多媒体素材在最终生成的视频中的呈现时长。当用于视频编辑的某个多媒体素材为视频素材时，根据对应的呈现时长，对该多媒体素材进行裁剪处理，以使裁剪处理后的该多媒体素材的时长与呈现时长相同，裁剪处理后的多个多媒体素材即用于组合得到视频。通过上述方式，根据呈现时长对对应的多媒体素材进行处理，使得在最终生成的视频中，不同多媒体素材进行转换的时间点与设定强度的拍子所在的时间点相同，提升了生成的视频的视觉效果。

在一些实施例中，可以通过这样的方式来实现上述的根据对应的呈现时长对多媒体素材进行裁剪处理：遍历多媒体素材中的时间点，并以遍历到的时间点作为起点，根据对应的呈现时长对多媒体素材进行裁剪处理，得到待评分素材；将多个多媒体素材组合为视频之前，还包括：对每个待评分素材进行评分处理，得到质量分数；将质量分数最高的待评分素材，确定为用于组合得到视频的多媒体素材。

例如，遍历多媒体素材中的多个时间点，并在遍历过程中，以遍历到的时间点作为起点，根据该多媒体素材对应的呈现时长，对多媒体素材进行裁剪处理，得到时长符合该呈现时长的待评分素材。其中，对于多媒体素材中一些靠近结束时间点的时间点，由于进行裁剪处理后得到的素材的时长小于呈现时长，故对于这些时间点可以不做处理。

然后，对每个待评分素材进行评分处理，得到质量分数，评分处理可以基于人工智能模型实现。例如，通过样本待评分素材和样本质量分数，更新人工智能模型的权重参数，并根据更新后的人工智能模型，对每个待评分素材单独进行评分处理，得到相应的质量分数。最终，将质量分数最高的待评分素材，确定为用于组合得到视频的多媒体素材。通过上述方式，裁剪出多媒体素材中质量最好的部分，并组合得到视频，提升了得到的视频的效果。

在步骤402中，将被选中的音频添加至视频的音轨，并在视频的与被选中的音频对应的节奏点中，添加被选中的节奏点特效模板中的特效。

这里，将被选中的音频添加至步骤401中生成的视频的音轨，并在该视频的与被选中的音频对应的节奏点处，添加被选中的节奏点特效模板中对应的特效。其中，终端设备可以在确定出被选中的音频时，实时地确定被选中的音频中的节奏点，也可以获取与被选中的音频对应的节奏点模板，该节奏点模板可以是服务器生成并发送给终端设备的，也可以是终端设备预先生成并存储在本地的。该节奏点模板用于以文件形式来表示(描述)被选中的音频中的节奏点。

值得说明的是，在存在时间点特效模板的情况下，还在该视频的、与被选中的时间点特效模板对应的时间点处，添加时间点特效模板中对应的特效。

在一些实施例中，节奏点特效模板包括与节奏点对应的多个特效组；其中，每个特效组包括至少一个特效；可以通过这样的方式来实现上述的在视频的与被选中的音频对应的节奏点中，添加被选中的节奏点特效模板中的特效：执行以下其中一种处理：根据被选中的节奏点特效模板中多个特效组的设定排列顺序，在视频的与被选中的音频对应的多个节奏点中，依次添加对应的特效组；在视频的与被选中的音频对应的每个节奏点中，添加被选取出的特效组；其中，被选取出的特效组是在多个特效组中进行随机选取得到，多个特效组属于被选中的节奏点特效模板。

在本申请实施例中，特效可以通过叠加的方式呈现，对于节奏点特效模板来说，可以包括与节奏点对应的多个特效组，其中每个特效组包括至少一个特效。本申请实施例提供了以下两种方式来添加特效，为了便于理解，以节奏点仅包括一种类型进行说明：

1)节奏点特效模板中的多个特效组存在设定排列顺序，在视频的与被选中的音频对应的多个节奏点处，根据设定排列顺序依次添加对应的特效组。例如节奏点特效模板中，从前至后包括特效组1和特效组2，在视频中从前至后包括节奏点1和节奏点2，则在节奏点1处添加特效组1，在节奏点2处添加特效组2。

2)针对视频的与被选中的音频对应的每个节奏点，在被选中的节奏点特效模板包括的多个特效组中，随机选取出一个特效组，并在节奏点处添加被选取出的特效组。

通过上述方式，能够在视频中叠加特效，提升了视频的呈现效果，并且可以通过顺序添加或随机选取的方式来添加特效组，提升了灵活性。

如图4D所示，本申请实施例将多个多媒体素材组合为视频，并将被选中的音频和选中的节奏点特效模板添加至视频中，实现了音频、特效和多媒体素材的有效结合，用户可以根据自身需求，来自由地组合不同的音频和特效。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。在本申请实施例中，可以在终端设备的人机交互界面呈现多个候选的多媒体素材，并响应于针对多个候选的多媒体素材的选择操作，根据被选中的多媒体素材来推荐多个候选的音乐(对应上文的音频)和多个候选的一键出片模板，其中，一键出片模板包括普通特效以及卡点特效中的至少一种，普通特效即对应上文的时间点特效模板中的特效，卡点特效即对应上文的节奏点特效模板中的特效。

其中，可以将多媒体素材、音乐及特效进行标签化，从而便于建立三者之间的关联关系。举例来说，设定多媒体素材的标签(对应上文的素材类型)包括萌娃，音乐标签(对应上文的音频类型)包括可爱、现代及国风等，特效标签(对应上文的特效类型)包括欧美复古风、中国风及萌趣等，并设定对于标签萌娃，标签可爱、现代和国风的权重分别为1、0.5和0.1。如此，在对被选中的多媒体素材进行内容识别处理后，若得到的标签为萌娃，则在多个音乐标签中，确定出对应的权重最大的音乐标签(即可爱)，并将可爱的音乐标签对应的多个音乐呈现于人机交互界面中，即进行音乐推荐，便于用户选择。推荐一键出片模板的过程与推荐音乐的过程类似，在此不做赘述，其中，一键出片模板可以由相关制作者进行预先制作，也可以在得到被选中的多媒体素材的标签后，确定对应的权重最大的特效标签，并将符合权重最大的特效标签的多个特效进行组合，得到一键出片模板。

作为示例，本申请实施例提供了如图5A所示的包括多个候选的多媒体素材的人机交互界面的示意图，在图5A中，终端设备在人机交互界面中呈现本地的多个候选的多媒体素材，例如图5A示出的多媒体素材51，其中，多媒体素材可以是预先存储在终端设备本地的，也可以是终端设备实时拍摄(采集)得到的，多媒体素材可以是图像素材或视频素材等。在本申请实施例中，对选择的多媒体素材的数量不做限制，用户可以根据实际需求进行选择。在用户选择完毕后，可以触发图5A中的“下一步”的选项，终端设备响应于该触发操作，呈现候选的音乐及一键出片模板。

如图5B所示，在确定被选中的多媒体素材后，终端设备可以在人机交互界面中首先呈现多个候选的音乐，如图5B中的音乐52。同时，终端设备可以提供候选的音乐的试听选项，便于用户了解音乐的具体情况，从而判断是否符合自身需求。用户可以选择多个候选的音乐中的任意一个，并触发图5B中的“下一步”的选项。

如图5C所示，在确定被选中的音乐后，终端设备可以在人机交互界面中呈现多个候选的一键出片模板以及每个一键出片模板的特效预览图，例如一键出片模板53以及一键出片模板53对应的星光特效预览图。用户可以选择任意一个一键出片模板，终端设备根据被选中的一键出片模板、被选中的音乐及被选中的多媒体素材，生成视频。在图5C中，以被选中的一键出片模板为一键出片模板53举例，示出了具有星光特效的视频54。对于生成的视频，用户可以切换其中应用的音乐和一键出片模板，切换之后，重新生成的视频仍具有卡点效果。

值得说明的是，图5A至图5C的图示仅为示例，并不构成对本申请实施例的限定，例如，终端设备可以先呈现多个候选的一键出片模板，再呈现多个候选的音乐；又例如，终端设备可以在同一界面中同时呈现多个候选的一键出片模板及多个候选的音乐；又例如，终端设备可以在一个单独的界面中呈现最终生成的视频。

本申请实施例还提供了如图6所示的视频编辑处理方法的流程示意图，在图6中，用户可以选择视频素材和图像素材中的至少一种，以作为用于进行视频编辑的多媒体素材，此外，用户还可选择音乐和一键出片模板。其中，音乐对应有节奏点模板，该节奏点模板用于表示音乐中的多个节奏点，节奏点模板和一键出片模板可以通过文件的形式来体现，例如以JavaScript对象简谱(JavaScript Object Notation，JSON)文件的形式来体现。被选中的音乐对应的节奏点模板以及被选中的一键出片模板可以由服务器生成，并发送至终端设备。终端设备对接收到的节奏点模板及一键出片模板进行解析，并应用至被选中的多媒体素材中，以生成视频。

在本申请实施例中，节奏点的类型可以包括起始点、结束点、高光点、快节奏效果点、慢节奏效果点及鼓点，下面进行分别介绍：

1)起始点和结束点：一首音乐的时长通常在三分钟以上，而卡点视频的时长需求通常更短。因此，可以将音乐的副歌部分开始前的若干秒(对应上文的前移时长)的时间点，确定为起始点(对应上文的新的起始时间点)，将副歌部分的结束时间点确定为结束点，并根据起始点和结束点对音乐进行裁剪处理。例如对于某一首音乐来说，起始点为第40秒，结束点为第70秒，则裁剪出该音乐的第40秒到第70秒的部分，作为最终生成的视频的背景音乐。

2)高光点：可以是音乐中副歌部分的起始时间点，一首音乐中通常只有一个高光点，因此可以在该点处应用一个比较强的特效，该特效可以使得最终生成的视频具有强烈的转折，能够提升卡点效果。

3)快节奏/慢节奏效果点：这里，可以通过每分钟节拍数(Beat Per Minute，BPM)来区分快节奏和慢节奏的音乐，例如，将BPM小于100的音乐确定为慢节奏的音乐。对于快节奏音乐应用快节奏效果点，对于慢节奏音乐应用慢节奏效果点。该类型的节奏点的灵活性较强，可以根据音乐乐理相关的知识进行调整，例如，可以将音乐中歌词部分的起始时间点或者结束时间点作为快节奏/慢节奏效果点；对于4/4节拍的快节奏音乐，可以将强拍和次强拍所在的时间点作为快节奏效果点；对于慢节奏音乐，可以每隔8拍选取一个时间点，以作为慢节奏效果点。

4)鼓点：可以将音乐中的强拍所在的时间点作为鼓点，鼓点可用于对被选中的多个多媒体素材进行裁剪，以使最终生成的视频中，不同多媒体素材切换时的时间点和鼓点重合。对于鼓点来说，可以应用设定的转场特效，使得最终生成的视频整体具有节奏感。

本申请实施例提供了如图7所示的音乐中节奏点的示意图，其中，虚线矩形框是音乐的时间轴，三角形表示相应的节奏点，为了便于说明，同时呈现了一首音乐中的快节奏效果点和慢节奏效果点。

对于一首音乐，其对应的节奏点模板可以用JSON来表示。例如设定节奏点模板包括起始点和结束点(统称为Start Value Trail)、高光点(Highlight Value Trail)、快节奏效果点(Fast Rhythm Value Trail)、慢节奏效果点(Slow Rhythm Value Trail)和鼓点(Drum Trail)。其中，对于每个节奏点，采用Type和Time两个参数进行描述，Type的意义在于细化类别，例如对于Start Value Trail，由Type来表示是起始点还是结束点，在Type为Start时，表示是起始点；在Type为End时，表示是结束点。而Time所表示的是节奏点在音乐中的位置，其单位可以是毫秒或其他时间单位，以下以毫秒单位进行举例说明。

举例来说，在某个节奏点模板的JSON文件中，起始点和结束点(即Start ValueTrail)的描述包括“Type：Start；Time：14632”以及“Type：End；Time：39400”；高光点的描述是“Type：HighLight；Time：18848”。则在应用该节奏点模板时，截取对应的音乐的第14.632秒至第39.4秒的部分，以作为最终生成的视频的背景音乐，而高光点在背景音乐中的位置是第4.216秒(即第18.848秒减去第14.632秒)。其中，高光点并不存在更细分的类别，故用于描述高光点的Type并不存在特殊含义。

本申请实施例中的特效可以划分为普通特效和卡点特效，如图8所示，普通特效包括滤镜、片头片尾、文字贴纸及氛围贴纸等添加类型，卡点特效可包括高光特效、二级特效及转场特效等，其中，高光特效应用于高光点，二级特效应用于慢节奏效果点和快节奏效果点，转场特效应用于鼓点，卡点特效的命名不同仅是为了区分不同类型的节奏点对应的卡点特效。

这里，可以对一个节奏点应用一个特效组，该特效组包括至少一个卡点特效。对于每个类型的节奏点来说，一键出片模板中可包括对应的多个特效组。在添加特效时，对于属于某类型的每一个节奏点，从该类型节奏点对应的多个特效组中，按照设定排列顺序选取出一个特效组或者随机选取出一个特效组，并应用(添加)至节奏点。

接下来，以生成视频的示例进行说明。如图9A所示，在一键出片模板仅包括普通特效，且不存在节奏点模板的情况下，用户选择了三个视频素材进行视频编辑，三个视频素材分别为视频素材1、视频素材2和视频素材3，时长分别是15秒、15秒和10秒，同时，用户选择了一个一键出片模板和一首音乐。终端设备将被选中的三个视频素材进行组合，同时将被选中的一键出片模板中的普通特效，添加至组合得到的视频中，图9A示例性地示出了片头特效、片尾特效、装饰文字贴纸、光斑氛围及冷色调滤镜。另外，还将被选中的音乐添加至组合得到的视频的音轨中，以作为该视频的背景音乐。

在一键出片模板包括普通特效和卡点特效，且存在被选中的音乐对应的节奏点模板的情况下，根据节奏点模板中的鼓点对多个视频素材进行裁剪处理，将裁剪处理后的多个视频素材组合为视频，并将卡点特效添加至组合出的视频中的节奏点处。例如，被选中的音乐对应的节奏点模板中，高光点的描述是“Type：HighLight；Time：15000”，起始点和结束点的描述包括“Type：Start；Time：10000”以及“Type：End；Time：44000”，慢节奏效果点的描述包括“Type：SlowRhythm；Time：17000”、“Type：SlowRhythm；Time：22000”、“Type：SlowRhythm；Time：27000”以及“Type：SlowRhythm；Time：32000”，鼓点的描述包括“Type：PuckingDrum；Time：22000”以及“Type：PuckingDrum；Time：34000”，其中，慢节奏效果点以及鼓点并不存在更细分的类别，故用于描述慢节奏效果点以及鼓点的Type并不存在特殊含义。如图9B所示，基于该被选中的音乐对应的节奏点模板，对该音乐进行裁剪处理，即裁剪出音乐中第10秒至第44秒的部分，作为最终生成的视频中的背景音乐。在裁剪后的音乐中，高光点位于第5秒(第15秒减去第10秒)，鼓点位于第12秒(第22秒减去第10秒)和第24秒(第34秒减去第10秒)。因此，将视频素材1裁剪至12秒，将视频素材2裁剪至12秒，保持视频素材3的时长不变，并将裁剪后的视频素材1和视频素材2，以及未裁剪的视频素材3组合为视频。在组合得到的视频中，在鼓点添加转场特效(如图9B示出的转场特效91)，在高光点添加高光特效(如图9B示出的高光特效92)，在慢节奏效果点添加二级特效(如图9B示出的二级特效93)。

基于图9B示出的视频，用户可以切换音乐，即重新选择音乐，终端设备可以根据被重新选中的音乐重新生成视频。例如，在被重新选中的音乐对应的节奏点模板中，高光点的描述是“Type：HighLight；Time：17000”，起始点和结束点的描述包括“Type：Start；Time：12000”以及“Type：End；Time：34000”，慢节奏效果点的描述包括“Type：SlowRhythm；Time：19000”、“Type：SlowRhythm；Time：25000”以及“Type：SlowRhythm；Time：31000”，鼓点的描述包括“Type：PuckingDrum；Time：18000”以及“Type：PuckingDrum；Time：30000”。如图9C所示，基于被重新选中的音乐对应的节奏点模板，对被重新选中的音乐进行裁剪处理，即裁剪出被重新选中的音乐中第12秒至第34秒的部分，作为最终生成的视频中的背景音乐。在裁剪后的音乐中，高光点位于第5秒(第17秒减去第12秒)，鼓点位于第6秒(第18秒减去第12秒)和第18秒(第30秒减去第12秒)。因此，将视频素材1裁剪至6秒，将视频素材2裁剪至12秒，将视频素材3裁剪至4秒，并将裁剪后的视频素材1、视频素材2和视频素材3组合为视频。在组合得到的视频中，在鼓点添加转场特效(如图9C示出的转场特效94)，在高光点添加高光特效(如图9C示出的高光特效95)，在慢节奏效果点添加二级特效(如图9C示出的二级特效96)。如此，在切换音乐后，最终生成的视频仍具有卡点效果。

通过上述方式，将节奏点模板与一键出片模板独立开来，用户可以任意地组合节奏点模板与一键出片模板，提升了视频编辑处理的灵活性；同时，对于生成的视频，可以切换音乐，并重新生成视频，重新生成的视频仍具有卡点效果。

下面继续说明本申请实施例提供的视频编辑处理装置455实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器450的视频编辑处理装置455中的软件模块可以包括：模板呈现模块4551，用于响应于针对多媒体素材的视频编辑操作，在人机交互界面中呈现多个候选的音频以及多个候选的节奏点特效模板；其中，节奏点特效模板中的特效是与音频中的节奏点对应的；视频呈现模块4552，用于响应于针对多个候选的音频以及多个候选的节奏点特效模板的选择操作，呈现视频；其中，视频是根据被选中的音频、被选中的节奏点特效模板以及多媒体素材生成。

在一些实施例中，模板呈现模块4551，还用于：对多媒体素材进行内容识别处理，得到目标素材类型；确定与目标素材类型存在关联关系的目标音频类型和目标特效类型；在人机交互界面中呈现符合目标音频类型的多个候选的音频、以及符合目标特效类型的多个候选的节奏点特效模板。

在一些实施例中，节奏点包括多种类型，且每个类型的节奏点对应多个特效；模板呈现模块4551，还用于：在每个类型的节奏点对应的多个特效中，筛选出符合目标特效类型的特效；其中，每个特效对应至少一种特效类型；将筛选出的特效中与不同类型的节奏点对应的特效进行组合，得到多个节奏点特效模板。

在一些实施例中，模板呈现模块4551，还用于：获取多个样本多媒体素材、以及与每个样本多媒体素材对应的样本素材类型；通过人工智能模型对样本多媒体素材进行内容识别处理，得到待对比的素材类型；根据样本多媒体素材对应的样本素材类型与待对比的素材类型之间的差异，在人工智能模型中进行反向传播，并在反向传播的过程中，更新人工智能模型的权重参数；通过更新后的人工智能模型，对多媒体素材进行内容识别处理，得到目标素材类型。

在一些实施例中，视频编辑处理装置455还包括：时间点特效模板呈现模块，用于在人机交互界面中呈现多个候选的时间点特效模板；其中，时间点特效模板中的特效是与设定的时间点对应的；视频呈现模块4552，还用于：响应于针对多个候选的音频、多个候选的节奏点特效模板以及多个候选的时间点特效模板的选择操作，呈现视频；其中，视频是根据被选中的音频、被选中的节奏点特效模板、被选中的时间点特效模板以及多媒体素材生成。

在一些实施例中，视频编辑处理装置455还包括：素材呈现模块，用于在人机交互界面中呈现多个候选的多媒体素材；素材确定模块，用于响应于针对多个候选的多媒体素材的选择操作，将被选中的多媒体素材确定为用于进行视频编辑的多媒体素材。

在一些实施例中，视频编辑处理装置455还包括：组合模块，用于当用于进行视频编辑的多媒体素材的数量为多个时，将多个多媒体素材组合为视频；添加模块，用于将被选中的音频添加至视频的音轨，并获取与被选中的音频对应的节奏点模板；其中，节奏点模板用于表示被选中的音频中的节奏点；添加模块，还用于在视频的与节奏点模板对应的节奏点中，添加被选中的节奏点特效模板中的特效。

在一些实施例中，视频编辑处理装置455还包括：时长确定模块，用于在被选中的音频中，根据设定强度的拍子所在的时间点，确定每个多媒体素材的呈现时长；素材裁剪模块，用于当多媒体素材为视频素材时，根据对应的呈现时长对多媒体素材进行裁剪处理；其中，裁剪处理后的多个多媒体素材用于组合得到视频。

在一些实施例中，素材裁剪模块还用于：遍历多媒体素材中的时间点，并以遍历到的时间点作为起点，根据对应的呈现时长对多媒体素材进行裁剪处理，得到待评分素材；视频编辑处理装置455还包括：评分模块，用于对每个待评分素材进行评分处理，得到质量分数；素材再次确定模块，用于将质量分数最高的待评分素材，确定为用于组合得到视频的多媒体素材。

在一些实施例中，节奏点特效模板包括与节奏点对应的多个特效组；其中，每个特效组包括至少一个特效；添加模块还用于：执行以下其中一种处理：根据被选中的节奏点特效模板中多个特效组的设定排列顺序，在视频的与被选中的音频对应的多个节奏点中，依次添加对应的特效组；在视频的与被选中的音频对应的每个节奏点中，添加被选取出的特效组；其中，被选取出的特效组是在多个特效组中进行随机选取得到，多个特效组属于被选中的节奏点特效模板。

在一些实施例中，视频编辑处理装置455还包括：节奏点确定模块，用于执行以下至少一种处理，以确定音频中的节奏点：根据设定的前移时长，对音频中副歌部分的起始时间点进行前移处理，得到新的起始时间点，并将新的起始时间点和副歌部分的结束时间点，确定为音频中的节奏点；将音频中副歌部分的起始时间点和结束时间点中的至少一种，确定为音频中的节奏点；将音频中设定强度的拍子所在的时间点，确定为音频中的节奏点。

在一些实施例中，视频编辑处理装置455还包括：音频裁剪模块，用于根据新的起始时间点和副歌部分的结束时间点，对音频进行裁剪处理。

在一些实施例中，节奏点确定模块还用于：遍历音频中设定强度的拍子所在的时间点，确定遍历到的时间点与前一个时间点之间的差值时长，并当差值时长小于时长阈值时，丢弃遍历到的时间点；将音频中保留的时间点，确定为音频中的节奏点。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的视频编辑处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的视频编辑处理方法，例如，如图4A、图4B、图4C及图4D示出的视频编辑处理方法。值得说明的是，计算机包括终端设备和服务器在内的各种计算设备。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上，通过本申请实施例能够实现以下技术效果：

1)将音频和特效进行拆分，使得用户可以任意地组合音频和节奏点特效模板，并且在切换音频或节奏点特效模板后，最终生成的视频仍具有卡点效果，提升了视频编辑处理的灵活性。

2)通过呈现与多媒体素材风格相同或相近的候选的音频以及候选的节奏点特效模板，有助于提升最终生成的视频的视觉效果，进一步加强了用户体验。

3)节奏点特效模板可以预先设定，也可以在确定出目标特效类型后实时生成，提升了生成节奏点特效模板的灵活性和多样性。

4)除了节奏点特效模板之外，还可结合时间点特效模板生成视频，进一步提升了视频编辑处理的多样性和灵活性。

5)根据设定强度的拍子所在的时间点，对多媒体素材进行裁剪，使得在最终得到的视频中，不同多媒体素材转换的时间点与设定强度的拍子所在的时间点相同，加强了卡点效果；在对多媒体素材进行裁剪时，裁剪出多媒体素材中质量最好的部分，提升了裁剪效果。

以上，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种视频编辑处理方法，其特征在于，包括：

响应于针对多媒体素材的视频编辑操作，针对多种类型的节奏点，在每种类型的节奏点对应的多个特效中筛选出符合目标特效类型的特效；

其中，所述目标特效类型与所述多媒体素材的目标素材类型存在关联关系；每个所述特效对应至少一种特效类型；

将所述多种类型的节奏点分别对应的筛选出的特效进行组合处理，得到多个候选的节奏点特效模板；其中，所述节奏点特效模板包括与所述多种类型的节奏点分别对应的至少一个特效；

在人机交互界面中呈现多个候选的音频以及所述多个候选的节奏点特效模板；

2.根据权利要求1所述的视频编辑处理方法，其特征在于，所述在每种类型的节奏点对应的多个特效中筛选出符合目标特效类型的特效之前，所述方法还包括：

对所述多媒体素材进行内容识别处理，得到目标素材类型；

确定与所述目标素材类型存在关联关系的目标特效类型。

3.根据权利要求2所述的视频编辑处理方法，其特征在于，所述在人机交互界面中呈现多个候选的音频以及所述多个候选的节奏点特效模板之前，所述方法还包括：

确定与所述目标素材类型存在关联关系的目标音频类型；

确定符合所述目标音频类型的多个候选的音频。

4.根据权利要求2所述的视频编辑处理方法，其特征在于，所述对所述多媒体素材进行内容识别处理，得到目标素材类型，包括：

获取多个样本多媒体素材、以及与每个所述样本多媒体素材对应的样本素材类型；

通过人工智能模型对所述样本多媒体素材进行内容识别处理，得到待对比的素材类型；

根据所述样本多媒体素材对应的样本素材类型与所述待对比的素材类型之间的差异，在所述人工智能模型中进行反向传播，并

在反向传播的过程中，更新所述人工智能模型的权重参数；

通过更新后的所述人工智能模型，对所述多媒体素材进行内容识别处理，得到目标素材类型。

5.根据权利要求1所述的视频编辑处理方法，其特征在于，还包括：

在所述人机交互界面中呈现多个候选的时间点特效模板；

其中，所述时间点特效模板中的特效是与设定的时间点对应的；

所述响应于针对所述多个候选的音频以及所述多个候选的节奏点特效模板的选择操作，呈现视频，包括：

响应于针对所述多个候选的音频、所述多个候选的节奏点特效模板以及所述多个候选的时间点特效模板的选择操作，呈现视频；

其中，所述视频是根据被选中的音频、被选中的节奏点特效模板、被选中的时间点特效模板以及所述多媒体素材生成。

6.根据权利要求1所述的视频编辑处理方法，其特征在于，还包括：

在所述人机交互界面中呈现多个候选的多媒体素材；

响应于针对所述多个候选的多媒体素材的选择操作，将被选中的多媒体素材确定为用于进行视频编辑的多媒体素材。

7.根据权利要求1所述的视频编辑处理方法，其特征在于，还包括：

当用于进行视频编辑的多媒体素材的数量为多个时，将多个多媒体素材组合为视频；

将所述被选中的音频添加至所述视频的音轨，并获取与所述被选中的音频对应的节奏点模板；其中，所述节奏点模板用于表示所述被选中的音频中的节奏点；

在所述视频的与所述节奏点模板对应的节奏点中，添加所述被选中的节奏点特效模板中的特效。

8.根据权利要求7所述的视频编辑处理方法，其特征在于，还包括：

在所述被选中的音频中，根据设定强度的拍子所在的时间点，确定每个所述多媒体素材的呈现时长；

当所述多媒体素材为视频素材时，根据对应的呈现时长对所述多媒体素材进行裁剪处理；

其中，裁剪处理后的所述多个多媒体素材用于组合得到所述视频。

9.根据权利要求8所述的视频编辑处理方法，其特征在于，

所述根据对应的呈现时长对所述多媒体素材进行裁剪处理，包括：

遍历所述多媒体素材中的时间点，并

以遍历到的时间点作为起点，根据对应的呈现时长对所述多媒体素材进行裁剪处理，得到待评分素材；

所述视频编辑处理方法，还包括：

对每个所述待评分素材进行评分处理，得到质量分数；

将质量分数最高的待评分素材，确定为用于组合得到所述视频的多媒体素材。

10.根据权利要求7所述的视频编辑处理方法，其特征在于，

所述节奏点特效模板包括与所述节奏点对应的多个特效组；其中，每个所述特效组包括至少一个特效；

所述在所述视频的与所述被选中的音频对应的节奏点中，添加所述被选中的节奏点特效模板中的特效，包括：

执行以下其中一种处理：

根据所述被选中的节奏点特效模板中多个特效组的设定排列顺序，在所述视频的与所述被选中的音频对应的多个节奏点中，依次添加对应的特效组；

在所述视频的与所述被选中的音频对应的每个节奏点中，添加被选取出的特效组；其中，所述被选取出的特效组是在多个特效组中进行随机选取得到，所述多个特效组属于所述被选中的节奏点特效模板。

11.根据权利要求1至10任一项所述的视频编辑处理方法，其特征在于，还包括：

执行以下至少一种处理，以确定所述音频中的节奏点：

根据设定的前移时长，对所述音频中副歌部分的起始时间点进行前移处理，得到新的起始时间点，并

将所述新的起始时间点和所述副歌部分的结束时间点，确定为所述音频中的节奏点；

将所述音频中副歌部分的起始时间点和结束时间点中的至少一种，确定为所述音频中的节奏点；

将所述音频中设定强度的拍子所在的时间点，确定为所述音频中的节奏点。

12.根据权利要求11所述的视频编辑处理方法，其特征在于，

所述将所述新的起始时间点和所述副歌部分的结束时间点，确定为所述音频中的节奏点之后，还包括：

根据所述新的起始时间点和所述副歌部分的结束时间点，对所述音频进行裁剪处理；

所述将所述音频中设定强度的拍子所在的时间点，确定为所述音频中的节奏点，包括：

遍历所述音频中设定强度的拍子所在的时间点，确定遍历到的时间点与前一个时间点之间的差值时长，并

当所述差值时长小于时长阈值时，丢弃所述遍历到的时间点；

将所述音频中保留的时间点，确定为所述音频中的节奏点。

13.一种视频编辑处理装置，其特征在于，包括：

模板呈现模块，用于：

14.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的视频编辑处理方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的视频编辑处理方法。