CN113163272B

CN113163272B - 视频剪辑方法、计算机设备及存储介质

Info

Publication number: CN113163272B
Application number: CN202010014784.9A
Authority: CN
Inventors: 翟世平; 冯谨强; 高伟杰
Original assignee: Hisense Co Ltd
Current assignee: Hisense Co Ltd
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2022-11-25
Anticipated expiration: 2040-01-07
Also published as: CN113163272A

Abstract

本申请提供了一种视频剪辑方法、计算机设备及存储介质，涉及图像处理领域。该方法可以获取待剪辑的视频包括的多个视频片段中每个视频片段的片段标签和用户的兴趣视频，并基于该兴趣视频，从多个视频片段中获取至少一个目标视频片段，最后基于该至少一个目标视频片段生成剪辑视频。由于本申请提供的方法可以自动根据待剪辑的视频包括的多个视频片段中每个视频片段的片段标签，以及用户的兴趣标签对待剪辑的视频进行剪辑，无需人工手动剪辑，提高了视频剪辑的效率。

Description

视频剪辑方法、计算机设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种视频剪辑方法、计算机设备及存储介质。

背景技术

视频剪辑是对视频进行剪切得到多个视频片段后，对该多个视频片段中的至少两个视频片段进行拼接，以得到拼接后的拼接视频片段的过程。

相关技术中，用户可以通过终端中安装的视频剪辑客户端触发对视频的剪切操作，该视频剪辑客户端响应于该剪切操作对该视频进行剪切，得到多个视频片段。之后，用户可以通过视频剪辑客户端触发针对多个视频片段中的至少两个视频片段的拼接操作，该视频剪辑客户端响应于该拼接操作对该至少两个视频片段进行拼接，得到该至少两个视频片段拼接后的拼接视频片段。

但是，由于相关技术中的方法需用户手动对视频进行剪辑，剪辑效率较低。

发明内容

本申请提供了一种视频剪辑方法、计算机设备及存储介质，可以解决相关技术中剪辑效率较低的问题。所述技术方案如下：

一方面，提供了一种视频剪辑方法，所述方法包括：

获取待剪辑的视频包括的多个视频片段中每个视频片段的片段标签，每个所述视频片段的片段标签包括：图像标签和音频标签，其中所述图像标签用于指示所述视频片段包括的图像帧的图像内容，所述音频标签用于指示所述视频片段包括的音频帧的音频内容；

获取用户的兴趣标签；

基于所述兴趣标签，从所述多个视频片段中获取至少一个目标视频片段，每个所述目标视频片段的片段标签与所述兴趣标签的相似度大于第一相似度阈值；

基于至少一个所述目标视频片段生成剪辑视频。

另一方面，提供了一种计算机设备，所述计算机设备包括：处理器；所述处理器用于：

获取用户的兴趣标签；

基于至少一个所述目标视频片段生成剪辑视频。

又一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述计算机可读存储介质在计算机上运行时，使得计算机执行如上述方面所述的视频剪辑方法。

本申请提供的技术方案带来的有益效果至少包括：

本申请提供了一种视频剪辑方法、计算机设备及存储介质，该方法可以获取待剪辑的视频包括的多个视频片段中每个视频片段的片段标签和用户的兴趣视频，并基于该兴趣视频，从多个视频片段中获取至少一个目标视频片段，最后基于该至少一个目标视频片段生成剪辑视频。由于本申请提供的方法可以自动根据待剪辑的视频包括的多个视频片段中每个视频片段的片段标签，以及用户的兴趣标签对待剪辑的视频进行剪辑，无需人工手动剪辑，提高了视频剪辑的效率。

并且，由于本申请提供的方法中的每个视频片段的片段标签包括：用于指示该视频片段包括的图像帧的图像内容的图像标签，以及用于指示该视频片段包括的音频帧的音频内容的音频标签，因此每个视频片段的片段标签能够精确反映该视频片段的内容，保证从该多个视频片段中获取目标视频片段的准确性较高，进而使得生成的剪辑视频满足用户需求，用户体验较好。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频剪辑方法所涉及的一种实施环境的结构示意图；

图2是本申请实施例提供的一种视频剪辑的方法流程图；

图3是本申请实施例提供的另一种视频剪辑的方法流程图；

图4是本申请实施例提供的一种将待剪辑的视频划分为多个视频片段的方法流程图；

图5是本申请实施例提供的一种将多个图像帧划分为多个图像组的方法流程图；

图6是本申请实施例提供的一种将多个音频帧划分为多个音频组的方法流程图；

图7是本申请实施例提供的一种视频片段的时刻范围的示意图；

图8是本申请实施例提供的另一种视频片段的时刻范围的示意图；

图9是本申请实施例提供的一种确定图像标签的方法流程图；

图10是本申请实施例提供的一种确定音频标签的方法流程图；

图11是本申请实施例提供的一种显示界面的示意图；

图12是本申请实施例提供的一种计算机设备的结构示意图；

图13是本申请实施例提供的另一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种视频剪辑方法所涉及的一种实施环境的结构示意图。参考图1可以看出，该实施环境可以包括终端01(例如图1中示出了2个终端01)和服务器02。每个终端01均可以通过有线或无线的方式与该服务器02建立通信连接。

该终端01可以为智能手机、平板电脑、膝上型便携计算机或者台式计算机等。并且，每个终端01中可以安装有能够剪辑视频的视频剪辑客户端011(该视频剪辑客户端011也可以称为应用程序)。

该服务器02可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。并且，该服务器02可以为该终端01中安装的视频剪辑客户端011的后台服务器。

图2是本申请实施例提供的一种视频剪辑方法的流程图。该视频剪辑方法可以应用于计算机设备中，该计算机设备可以为图1所示的终端01或者服务器 02。下文以该方法应用于终端01中的视频剪辑客户端011为例进行说明，参考图2可以看出，该方法可以包括：

步骤101、获取待剪辑的视频包括的多个视频片段中每个视频片段的片段标签。

在本申请实施例中，终端中安装的视频剪辑客户端可以对待剪辑的视频进行片段划分，以得到该待剪辑的视频包括的多个视频片段。并且，该视频剪辑客户端可以获取该待剪辑的视频包括的多个视频片段中每个视频片段的片段标签。每个视频片段的片段标签可以包括：图像标签和音频标签。该图像标签可以用于指示该视频片段包括的图像帧的图像内容。该音频标签可以用于指示该视频片段包括的音频帧的音频内容。

需要说明的是，终端中可以预先存储有多个视频，该待剪辑的视频可以为用户在该终端中预先存储的多个视频中选择的一个视频。该终端中预先存储的多个视频中的每个视频可以为安装在终端中的能够拍摄视频的视频拍摄客户端拍摄的视频。或者，该终端中预先存储的多个视频中的每个视频可以是通过终端中安装的能够播放视频的视频播放客户端下载的视频。

步骤102、获取用户的兴趣标签。

在本申请实施例中，用户的兴趣标签可以用于指示用户感兴趣的内容。

作为一种可选的实现方式，该视频剪辑客户端在获取到多个视频片段中每个视频片段的片段标签之后，可以在该视频剪辑客户端的显示界面显示各个视频片段的片段标签，用户可以触发针对显示界面中显示的多个片段标签中目标片段标签的选择操作，视频剪辑客户端响应于该选择操作，将该目标片段标签确定为用户的兴趣标签。

作为另一种可选的实现方式，该视频剪辑客户端在获取到多个视频片段中每个视频片段的片段标签之后，可以基于用户的历史观看记录从多个片段标签中自动确定用户的兴趣标签。其中，用户的历史观看记录可以为用户在视频播放客户端中观看的视频的播放记录。

作为又一种可选的实现方式，该视频剪辑客户端的显示界面可以显示有搜索框，用户可以在该搜索框输入兴趣标签。相应的，该视频剪辑客户端可以直接获取用户输入的兴趣标签。

步骤103、基于兴趣标签，从多个视频片段中获取至少一个目标视频片段。

在本申请实施例中，视频剪辑客户端可以基于获取到的用户的兴趣标签，从待剪辑的视频包括的多个视频片段中获取至少一个目标视频片段。其中，每个目标视频片段的片段标签与兴趣标签的相似度大于第一相似度阈值。也即是，视频剪辑客户端可以将与兴趣标签的相似度较高的片段标签所指示的视频片段确定为目标视频片段。

可选的，该第一相似度阈值可以是开发人员在开发过程中预先配置的。例如，该第一相似度阈值可以记录在视频剪辑客户端的安装包中。

步骤104、基于至少一个目标视频片段生成剪辑视频。

在本申请实施例中，视频剪辑客户端可以基于获取到的至少一个目标视频片段生成剪辑视频。若视频剪辑客户端获取到的目标视频片段的数量为一个，则该视频剪辑客户端可以直接将该目标视频片段确定为剪辑视频。若视频剪辑客户端获取到的目标视频片段的数量为多个，则该视频剪辑客户端可以将该多个目标视频片段进行拼接，将拼接后的拼接视频片段确定为剪辑视频。并且，由于获取的目标视频片段的片段标签与兴趣标签的相似度较大，因此基于该目标视频片段生成的剪辑视频能够满足用户的需要，用户体验较好。

综上所述，本申请实施例提供的了一种视频剪辑方法，该方法可以获取待剪辑的视频包括的多个视频片段中每个视频片段的片段标签和用户的兴趣视频，并基于该兴趣视频，从多个视频片段中获取至少一个目标视频片段，最后基于该至少一个目标视频片段生成剪辑视频。由于本申请实施例提供的方法可以自动根据待剪辑的视频包括的多个视频片段中每个视频片段的片段标签，以及用户的兴趣标签对待剪辑的视频进行剪辑，无需人工手动剪辑，提高了视频剪辑的效率。

并且，由于本申请实施例提供的方法中的每个视频片段的片段标签包括：用于指示该视频片段包括的图像帧的图像内容的图像标签，以及用于指示该视频片段包括的音频帧的音频内容的音频标签，因此每个视频片段的片段标签能够精确反映该视频片段的内容，保证从该多个视频片段中获取目标视频片段的准确性较高，进而使得生成的剪辑视频满足用户需求，用户体验较好。

图3是本申请实施例提供的另一种视频剪辑方法的流程图。该方法可以应用于计算机设备中，该计算机设备可以为图1所示的终端01或服务器02。下文以该方法应用于终端01中的视频剪辑客户端011为例进行说明。参考图3，该方法可以包括：

步骤201、对待剪辑的视频进行片段划分，得到待剪辑的视频的多个视频片段。

在本申请实施例中，终端中安装的视频剪辑客户端可以先从终端中预先存储的多个视频中获取待剪辑的视频，之后再对该待剪辑的视频进行片段划分，以得到该待剪辑的视频的多个视频片段。

其中，该多个视频片段中相邻两个视频片段的时刻范围可以重叠，其中每个视频片段的时刻范围是指该视频片段的起始时刻与结束时刻之间的范围。例如，该多个视频片段中某个视频片段的起始时刻可以位于上一个视频片段的时刻范围内。或者，该多个视频片段中相邻两个视频片段的时刻范围可以不重叠。例如，该多个视频片段中某个视频片段的结束时刻与上一个视频片段的起始时刻可以为同一时刻。

需要说明的是，终端中预先存储的多个视频中的每个视频可以为安装在该终端中能够拍摄视频的视频拍摄客户端拍摄的视频。或者，该终端中预先存储的多个视频中的每个视频可以是终端通过安装的能够播放视频的视频播放客户端下载的视频。

在本申请实施例中，为了保证每个视频片段的完整性，需要同时考虑该视频片段中各个图像帧的连续性以及各个音频帧的连续性。即参考图4，该步骤 201可以包括：

步骤2011、对待剪辑的视频包括的多个图像帧进行划分，得到多个图像组。

在本申请实施例中，待剪辑的视频可以包括多个图像帧，该多个图像帧可以是连续的。视频剪辑客户端在对待剪辑的视频进行剪辑时，需要将该多个图像帧进行划分，以得到多个图像组。其中，每个图像组可以包括至少两个连续的图像帧。

图5是本申请实施例提供的一种将多个图像帧划分为多个图像组的方法流程图。其中，可以采用帧差法对多个图像帧进行划分得到多个图像组。参考图5，该方法可以包括：

步骤a1、确定待剪辑的视频中每相邻两个图像帧的相似度。

视频剪辑客户端可以根据该待剪辑的视频中相邻两个图像帧的图像内容的相似程度确定该两个图像帧的相似度。可选的，视频剪辑客户端中可以预先存储有图像片段分析模型，在视频剪辑客户端获取到待剪辑的视频之后，该图像片段分析模型基于该待剪辑的视频，确定该待剪辑的视频中每相邻两个图像帧的相似度。其中，该图像片段分析模型可以基于已确定相似度的多个图像帧训练得到。

步骤a2、根据每相邻两个图像帧的相似度，将待剪辑的视频中多个图像帧划分为多个图像组。

其中，每个图像组包括的至少两个图像帧中每相邻的两个图像帧的相似度可以大于或等于第二相似度阈值，且每个图像组包括的至少两个图像帧中第一个图像帧，与上一个图像组包括的至少两个图像帧中最后一个图像帧的相似度可以小于第二相似度阈值。也即是，在本申请实施例中，视频剪辑客户端可以将相似度较大且连续的多个图像帧划分至同一个图像组。其中，该第二相似度阈值可以是开发人员在开发过程中预先配置的。例如，该第二相似度阈值可以记录在视频剪辑客户端的安装包中。

示例的，若相邻两个图像帧的图像内容为不同场景，则图像片段分析模型确定出的该相邻两个图像帧的相似度可以小于第二相似度阈值，视频剪辑客户端进而可以将该相邻的两个图像帧划分至不同的图像组中。若相邻的两个图像帧的图像内容为不同场景，则图像片段分析模型确定出的该相邻两个图像帧的相似度可以大于或等于第二相似度阈值，视频剪辑客户端进而可以将该相邻的两个图像帧划分至同一个图像组中。

步骤2012、对待剪辑的视频包括的多个音频帧进行划分，得到多个音频组。

在本申请实施例中，待剪辑的视频可以包括多个音频帧，该多个音频帧之间可以是连续的。当然，由于该待剪辑的视频中某些时刻可能只有画面而没有声音，因此该待剪辑的视频中的多个音频帧也可以是不连续的。视频剪辑客户端在对待剪辑的视频进行剪辑时，需要将该多个音频帧进行划分，以得到多个音频组。其中，每个音频组可以包括至少两个连续的音频帧。

其中，该多个音频帧可以是根据预设的采样频率采样得到的。若该待剪辑的视频中每相邻两个音频帧之间的时间间隔均等于该采样频率对应的采样间隔，则该多个音频帧是连续的。若该待剪辑的视频中某相邻两个音频帧之间的时间间隔大于采样频率对应的采样间隔，则该多个音频帧是不连续的。

图6是本申请实施例提供的一种将多个音频帧划分为多个音频组的方法流程图。其中可以采用声纹差法对多个音频帧进行划分得到多个音频组。参考图6，该方法可以包括：

步骤b1、确定待剪辑的视频中每相邻两个音频帧的相似度。

视频剪辑客户端可以根据该待剪辑的视频中相邻两个音频帧的音频内容的相似程度确定该两个音频帧的相似度。可选的，该视频剪辑客户端中可以预先存储有音频片段分析模型，在视频剪辑客户端获取到待剪辑的视频之后，该音频片段分析模型基于该待剪辑的视频，确定该待剪辑的视频中每相邻两个音频帧的相似度。其中，该音频片段分析模型可以基于已确定相似度的多个音频帧训练得到。

在本申请实施例中，视频剪辑客户端可以根据该待剪辑的视频中相邻两个音频帧的音频内容的类型确定该两个音频帧的相似度。例如，该音频片段分析模型可以包括音频分类模型(该音频分类模型可以为高斯混合模型)和相似度计算模型。该音频分类模型可以确定该待剪辑的视频中每个音频帧的音频内容属于每种类型的概率，并可以将概率最大的类型确定为该音频帧的音频内容的类型。该相似度计算模型进而可以根据每相邻两个音频帧的音频内容的类型，确定该两个音频帧的相似度。其中，该音频分类模型可以基于已确定类型的概率的多个音频帧样本训练得到。该相似度计算模型可以基于已确定相似度的多个音频帧样本训练得到。

示例的，假设音频帧的音频内容的类型包括：背景音乐和人物对白，音频分类模型确定出相邻两个音频帧的音频内容的类型均为背景音乐，则由于该相邻两个音频帧的音频内容的类型相同，因此相似度计算模型确定出的该两个音频帧的相似度较大。若音频分类模型确定出的某相邻两个音频帧的音频内容的类型不同，例如一个音频帧的音频内容的类型为背景音乐，另一个音频帧的音频内容的类型为人物对白，则相似度计算模型确定出的该两个音频帧的相似度较小。

步骤b2、根据每相邻两个音频帧的相似度，将待剪辑的视频中的多个音频帧划分为多个音频组。

每个音频组包括的至少两个音频帧中每相邻的两个音频帧的相似度大于或等于第三相似度阈值，且每个音频组包括的至少两个音频帧中第一个音频帧，与上一个音频组包括的至少两个音频帧中最后一个音频帧的相似度小于第三相似度阈值。也即是，在本申请实施例中，视频剪辑客户端可以将相似度较大且连续的多个音频帧划分到同一个音频组中。

示例的，假设两个音频帧的相似度的取值范围为0至1，第三相似度阈值为 0.8。待剪辑的视频中第一音频帧的音频内容为背景音乐，且与该第一音频帧相邻的第二音频帧的音频内容为人物对白，则该音频片段分析模型中的相似度计算模型可以确定该第一音频帧和第二音频帧的相似度为0，即可以小于第三相似度阈值，则视频剪辑客户端可以将该第一音频帧和第二音频帧划分至不同音频组中。若待剪辑的视频中第一音频帧和第二音频帧的音频内容均为背景音乐，或者，该第一音频帧和第二音频帧的音频内容均为人物对白，则该音频片段分析模型中的相似度计算模型可以确定该第一音频帧和第二音频帧的相似度为1，即可以大于或等于第三相似度阈值，则视频剪辑客户端可以将第一音频帧和第二音频帧划分至同一个音频帧中。

步骤2013、对于多个图像组中的每个图像组，根据图像组中第一个图像帧的时刻，从多个音频组中确定第一目标音频组，并根据图像组中最后一个图像帧的时刻，从多个音频组中确定第二目标音频。

在本申请实施例中，对于该多个图像组中的每个图像组，视频剪辑客户端可以基于该图像组中第一个图像帧的时刻，从视频剪辑客户端划分出的多个音频组中确定第一目标音频组，并基于该图像组中最后一个图像帧的时刻，从视频剪辑客户端划分出的多个音频组中确定第二目标音频组。也即是，对于每个图像组，可以确定出对应的一个第一目标音频组和一个第二目标音频组。

当然，若某个图像组中的各个图像帧的时刻均没有对应的音频帧，则对于该图像组，无法确定对应的第一目标音频组和第二目标音频组，因此在划分视频片段时，仅需考虑该图像组中图像帧的连续性即可。

其中，第一目标音频组中第一个音频帧的时刻与图像组中的第一个图像帧的时刻的差值小于第一差值阈值，第二目标音频组中最后一个音频帧的时刻与图像组中最后一个图像帧的时刻的差值小于第二差值阈值。也即是，第一目标音频组中第一个音频帧的时刻与图像组中的第一个图像帧的时刻的差值较小，第二目标音频组中最后一个音频帧的时刻与图像组中最后一个图像帧的时刻的差值较小。

需要说明的是，该第一差值阈值和第二差值阈值可以是开发人员在开发过程中预先配置的。例如，该第一差值阈值和第二差值阈值可以记录在视频剪辑客户端的安装包中。或者，该第一差值阈值可以是根据图像组中的第一个图像帧的时刻与各个音频组中第一个音频帧的时刻的差值确定的，第二差值阈值可以是根据图像组中的最后一个图像帧的时刻与各个音频组中最后一个音频帧的时刻的差值确定的。例如，该第一差值阈值可以为第一个图像帧的时刻与各个音频组中第一个音频帧的时刻的差值中最接近最小差值的差值。该第二差值阈值可以为最后一个图像帧的时刻与各个音频组中最后一个音频帧的时刻的差值中最接近最小差值的差值。

作为一种可能的情况，参考图7，假设某个图像组中第一个图像帧的时刻为 t1，最后一个图像帧的时刻为t2，即该图像组的时刻范围为t1至t2。对于该图像组，确定出的对应的第一目标音频组可以满足：该图像组中第一个图像帧的时刻t1大于或等于该第一目标音频组中第一个音频帧的时刻P1，且小于或等于该第一目标音频组中最后一个音频帧的时刻P2。并且，对于该图像组，确定出的对应的第二目标音频组可以满足：该图像组中最后一个图像帧的时刻t2可以大于或等于对应的第二目标音频组中第一个音频帧的时刻P3，且小于或等于该第二目标音频组中最后一个音频帧的时刻P4。

也即是，该图像组中第一个图像帧的时刻t1位于对应的第一目标音频组中第一个音频帧的时刻P1和最后一个音频帧的时刻P2之间。该图像组中最后一个图像帧的时刻t2位于对应的第二目标音频组中第一个音频帧的时刻P3和最后一个音频帧的时刻P4。

示例的，参考图7，假设某个图像组的第一个图像帧t1的时刻为5分32秒，第一个音频组的第一个音频帧的时刻P1为5分28秒，第一个音频组的最后一个音频帧的时刻P2为5分34秒。第二个音频组的第一个音频帧的时刻P2为5 分34秒，第二个音频组的最后一个音频帧的时刻P5为5分55秒，则由于该图像组的第一个图像帧t1的时刻位于第一个音频组中第一个音频帧的时刻P1和最后一个音频帧的时刻P2之间，因此可以将该第一个音频组确定为第一目标音频组。相应的，图像组的最后一个图像帧t2的时刻为7分11秒，确定出的第二目标音频组的第一个音频帧的时刻P3为7分9秒，第二目标音频组的最后一个音频帧的时刻P4为7分18秒。

作为另一种可能的情况，假设某个图像组中第一个图像帧的时刻为t1，最后一个图像帧的时刻为t2，即该图像组的时刻范围为t1至t2。对于该图像组，确定出的对应的第一目标音频组可以满足：第一目标音频组为多个音频组中，第一个音频帧的时刻与图像组中第一个图像帧的时刻的差值最小的音频组。并且，对于该图像组，确定出的对应的第二目标音频组可以满足：第二目标音频为多个音频组中，最后一个音频帧的时刻与图像组中最后一个音频帧的时刻的差值最小的音频组。

示例的，参考图8，假设某个图像组的第一个图像帧的时刻t1为5分32秒，其中第一个音频组的第一个音频帧的时刻P1为5分28秒，最后一个音频帧的时刻P2为5分34秒。第二个音频组的第一个音频帧的时刻P2为5分34秒，最后一个音频帧的时刻P5为5分44秒。由于该第二个音频组的第一个音频帧的时刻P2与图像组的第一个图像帧的时刻t1的差值为2秒，而第一个音频组的第一个音频帧的时刻P1与图像组的第一个图像图像帧的时刻t1的差值为4秒，因此可以将第二个音频组确定为第一目标音频组。

需要说明的是，为了保证最终划分得到的多个视频片段的画面连续性和音频连续性，在根据图像组的第一个图像帧的时刻确定第一目标音频组时，若该图像组的第一个图像帧的时刻位于第一个音频组的第一个音频帧的时刻和最后一个音频帧的时刻之间，且该图像组的第一个图像帧的时刻与第二个音频组的第一个音频帧的时刻的差值最小时，可以确定该第一个音频组为第一目标音频组。同理，在根据图像组的最后一个图像帧的时刻确定第二目标音频组时，若该图像组的最后一个图像帧的时刻位于第三个音频组的第一个音频帧的时刻和最后一个音频帧的时刻之间，且该图像组的最后一个图像帧的时刻与第四音频组的最后一个音频的时刻的差值最小时，可以确定该第三音频组为第二目标音频组。

也即是，对于同一个图像组，若根据上述两种方式确定出的目标音频组不同时，以第一种方式确定出的目标音频组为准。

在本申请实施例中，由于视频剪辑客户端划分出的图像组的数量，通常小于划分出的音频组的数量，因此每个图像组的第一帧图像的时刻和最后一帧图像的时刻之间可以包括多个音频组。该多个音频组中每个音频组的至少一个音频帧的时刻位于该图像组的第一帧图像的时刻和最后一帧图像的时刻之间。

步骤2014、将第一目标音频组中第一音频帧的时刻，与图像组中第一个图像帧的时刻中较小的时刻，确定为视频片段的起始时刻，并将第二目标音频组中最后一个音频帧的时刻，与图像组中最后一个图像帧的时刻中较大的时刻，确定为视频片段的结束时刻。

在本申请实施例中，为了保证划分出的多个视频片段中每个视频片段的完整性，需要同时考虑视频片段的画面连续性和音频连续性。因此视频剪辑客户端可以将第一目标音频组中第一音频帧的时刻，与图像组中第一个图像帧的时刻中较小的时刻，确定为视频片段的起始时刻，并将第二目标音频组中最后一个音频帧的时刻，与图像组中最后一个图像帧的时刻中较大的时刻，确定为视频片段的结束时刻。

示例的，参考图7，假设图像组中第一个图像帧的时刻t1为5分32秒，最后一个图像帧的时刻t2为7分9秒，第一目标音频组中第一音频帧的时刻P1 为5分28秒，第二目标音频组中最后一个音频帧的时刻P4为7分18秒，则第一个图像帧的时刻t1和第二目标音频组中最后一个音频帧的时刻P4为确定出的视频片段的时刻范围，即视频剪辑客户端可以将5分28秒确定为视频片段的起始时刻，7分18秒确定为视频片段的结束时刻。

假设在某个待剪辑的视频中，人物A的对白持续的时刻范围为2分8秒至 3分20秒，并且，在该人物A的对白持续的时刻范围内，某相邻两个图像帧的场景发生了变化，如在3分05秒时场景发生了变化，则确定出的视频片段的起始时刻可以为人物A对白的起始时刻，由此可以确保最终划分得到的视频片段的内容的完整性。

步骤2015、根据确定出的多个视频片段的起始时刻和结束时刻，对待剪辑的视频进行片段划分，得到待剪辑的视频的多个视频片段。

在本申请实施例中，由于视频剪辑客户端基于每个图像组，均可以确定出一个视频片段的起始时刻和结束时刻，因此基于划分得到的多个图像组，即可确定出多个视频片段的时刻范围。视频剪辑客户端可以根据该多个视频片段的起始时刻和结束时刻，对待剪辑的视频进行片段划分，以得到待剪辑的视频的多个视频片段。

由于本申请实施例提供的划分视频片段的方法同时考虑了图像帧的变化以及音频帧的变化，因此能够保证得到的多个视频片段中每个视频片段的完整性，且能够提高每个视频片段的切入点的准确性。其中，视频片段的切入点可以用于指示视频片段的起始时刻对应的图像帧和音频帧。

步骤202、确定待剪辑的视频包括的多个图像帧中每个图像帧的图像标签。

在本申请实施例中，视频剪辑客户端中可以预先存储有图像分析模型，该视频剪辑客户端在获取到待剪辑的视频之后，该图像分析模型可以对该待剪辑的视频中的每个图像帧进行分析，确定每个图像帧的图像标签。该每个图像标签可以用于指示图像帧的图像内容。该图像分析模型可以基于已确定图像标签的多个图像帧训练得到。

其中，该图像内容可以包括人物，景物，建筑物或汽车等。若该图像内容包括人物，图像标签可以包括该人物的姓名。若该图像内容包括建筑物，图像标签可以为该建筑物的名称。若图像内容包括汽车，图像标签可以为汽车的品牌名称。可选的，每个图像标签还可以包括图像内容的位置。例如，该图像标签可以包括人物的人脸位置。

示例的，假设待剪辑的视频中某个图像帧中包括人物A，则图像分析模型可以确定该图像帧的图像标签可以包括人物A的姓名“XX”，以及人物A在该图像帧中的位置坐标。其中，人物在图像帧中的位置坐标可以用人物的人脸中心坐标来表示。或者，假设待剪辑的视频中某个图像帧中包括汽车C，则图像分析模型可以确定该图像帧的图像标签包括汽车C的品牌名称“ZZ”和汽车C的位置坐标。

以图像帧中包括人物为例对确定图像标签的过程进行说明，参考图9，该过程可以包括：步骤c1、将待剪辑的视频中的某个图像帧输入人脸识别模型，即输入图像帧。步骤c2、对图像帧中的人脸进行检测，确定人脸位置，即人脸检测。步骤c3、对图像帧中的人脸进行关键点检测，即人脸关键点检测。步骤c4、提取该人脸的关键点，即特征提取。其中，该提取到的人脸的关键点为人脸独有的特征，对于特征匹配起到至关重要的作用。步骤c5、将该提取的关键点输入至人脸识别模型中，该人脸识别模型可以将输入的关键点与该人脸识别模型预先存储的信息进行人脸匹配，即人脸匹配。其中，该人脸识别模型预先存储的信息可以为人脸关键点。步骤c6、视频剪辑客户端根据人脸匹配结果确定图像帧的图像标签，即确定图像标签。此时该图像标签即为人脸匹配结果中人脸对应的人物的姓名，图像分析模型即为人脸识别模型。当图像帧中包括多个人物时，该人脸识别模型可以确定出该图像帧的图像标签为多个人脸中每个人脸对应的人物的姓名。

需要说明的是，人脸识别模型在将输入的关键点与人脸识别模型预先存储的信息进行匹配时，人脸识别模型可以输出多个人脸匹配结果，以及每个人脸匹配结果的匹配概率，人脸识别模型可以将匹配概率最高的人脸匹配结果确定为最终的人脸匹配结果。

步骤203、确定待剪辑的视频包括的多个音频帧中每个音频帧的音频标签。

在本申请实施例中，视频剪辑客户端中可以预先存储有音频分析模型，该视频剪辑客户端在获取到待剪辑的视频之后，该音频分析模型可以对该待剪辑的视频中的每个音频帧进行分析，确定每个音频帧的音频标签。每个音频标签用于指示音频帧的音频内容。该音频分析模型可以基于已确定音频标签的多个音频帧训练得到。

其中，该音频内容可以为人物的声音或背景音乐。若该音频内容为人物的声音，音频标签可以为人物的姓名。若音频内容为背景音乐，音频标签可以为背景音乐的名称。

示例的，假设待剪辑的视频中某个音频帧是人物A的声音，则音频分析模型可以确定该音频帧的音频标签为人物A的姓名“XX”。假设待剪辑的视频中某个音频帧是背景音乐，则音频分析模型可以确定该音频帧的音频标签为该背景音乐的名称。

以音频帧中包括人物的声音为例对确定音频标签的过程进行说明，参考图 10，该过程可以包括：步骤d1、将待剪辑的视频中的某个音频帧输入声纹识别模型中，即输入音频帧。步骤d2、对待剪辑的视频中的所有音频帧进行过滤和降噪，即过滤和降噪。步骤d3、提取并检测每个音频帧的特征信息，即特征检测。步骤d4、对于每个音频帧，可以将该音频帧的特征信息输入声纹识别模型，该声纹是被模型可以将输入的该音频帧的特征信息与声纹识别模型预先存储的信息进行声纹匹配，即声纹匹配。步骤d5、视频剪辑客户端根据声纹匹配结果确定该音频帧的音频标签，即确定音频标签。此时该音频标签即为声纹匹配结果中声纹对应的人物的姓名，音频分析模型即为声纹识别模型。其中，声纹是说话人身份的有效且稳定可靠的特征，因此采用声纹识别的方式确定音频帧的音频标签的准确性较高。

需要说明的是，声纹识别模型将输入的音频帧的特征信息与声纹识别模型预先存储的信息进行声纹匹配时，声纹识别模型可以输出多个声纹匹配结果，以及每个声纹匹配结果的匹配概率，声纹识别模型可以将匹培概率最高的声纹匹配结果确定为最终的声纹匹配结果。

步骤204、对于每个视频片段，根据视频片段包括的图像帧的图像标签，以及视频片段包括的音频帧的音频标签，确定视频片段的片段标签。

在本申请实施例中，对于每个视频片段，视频剪辑客户端可以基于步骤201 中确定出的该视频片段的起始时刻和结束时刻，步骤202中确定出该视频片段中每个图像帧的图像标签，以及步骤203中确定出该视频片段中每个音频帧的音频标签，确定视频片段的片段标签。可选的，视频剪辑客户端可以将该视频片段包括的多个图像帧的图像标签，以及多个音频帧的音频标签进行整合，得到该视频片段的片段标签。

其中，该整合可以是指求图像标签和音频标签的并集。示例的，假设该视频片段包括三个图像帧和四个音频帧。第一个图像帧的图像标签为人物A的姓名“XX”，第二个人图像帧的图像标签为人物B的姓名“YY”，第三个图像帧的图像标签为人物A的姓名“XX”。第一个音频帧的音频标签为人物A的姓名“XX”，第二个人音频帧的音频标签为背景音乐D的名称“WW”，第三个音频帧的音频标签为人物A的姓名“XX”，第四个音频帧的音频标签为人物A 的姓名“XX”，则该视频片段的片段标签可以为：人物A的姓名“XX”，人物B的姓名“YY”，以及背景音乐D的名称“WW”。

步骤205、获取用户的兴趣标签。

作为一种可选的实现方式，该视频剪辑客户端在获取到多个视频片段中每个视频片段的片段标签之后，可以在该视频剪辑客户端的显示界面显示多个视频片段中每个视频片段的片段标签，用户可以触发针对显示界面中显示的多个片段标签中目标片段标签的选择操作，视频剪辑客户端响应于该选择操作，将该目标片段标签确定为用户的兴趣标签。

示例的，参考图11，假设显示界面中显示的片段标签包括：人物A的姓名“XX”，人物B的姓名“YY”，人物C的姓名“ZZ”，以及背景音乐D的名称“WW”，用户触发针对该人物A的姓名“XX”的选择操作，视频剪辑客户端可以响应于该选择操作，将该人物A的姓名“XX”确定为用户的兴趣标签。

作为另一种可选的实现方式，该视频剪辑客户端在获取到多个视频片段中每个视频片段的片段标签之后，可以基于在该视频剪辑客户端中登录的用户账号的历史观看记录从多个片段标签中自动确定用户的兴趣标签。其中，用户的历史观看记录可以为用户在视频播放客户端中观看的视频的播放记录。

示例的，视频播放客户端中观看的视频的播放记录(历史观看记录)可以存储在终端中，视频剪辑客户端可以从终端中获取用户的历史观看记录，并可以根据该历史观看记录确定用户的兴趣标签。假设视频剪辑客户端获取到的用户的历史观看记录为人物A的访谈节目，则该视频剪辑客户端可以将该人物A 的姓名“XX”确定为用户的兴趣标签。

作为又一种可选的实现方式，该视频剪辑客户端的显示界面可以显示有搜索框，用户可以在该搜索框输入兴趣标签。相应的，该视频剪辑客户端可以直接获取用户的兴趣标签。

示例的，参考图12，假设用户在该搜索框输入人物A的姓名“XX”，则视频剪辑客户端可以直接将该人物A的姓名“XX”确定为用户的兴趣标签。

步骤206、基于兴趣标签，从多个视频片段中获取至少一个目标视频片段。

在本申请实施例中，视频剪辑客户端可以基于获取到的用户的兴趣视频，从待剪辑的视频包括的多个视频片段中获取至少一个目标视频片段。其中，每个目标视频片段的片段标签与兴趣标签的相似度大于第一相似度阈值。也即是，视频剪辑客户端可以将与兴趣标签的相似度较高的片段标签所指示的视频片段确定为目标视频片段。

其中，每个目标视频片段的片段标签与兴趣标签的相似度可以通过该兴趣标签与片段标签中相同标签的个数来衡量。例如，可以将片段标签中与兴趣标签相同的标签的个数，与兴趣标签的个数的比值确定为该片段标签与兴趣标签的相似度。

示例的，假设待剪辑的视频包括三个视频片段。其中，第一个视频片段的片段标签包括：人物A的姓名“XX”，人物B的姓名“YY”，以及背景音乐 D的名称“WW”。第二个视频片段的片段标签包括：人物Q的姓名“WW”和人物E的姓名“RR”。第三个视频片段的片段标签包括：人物A的姓名“XX”和人物Q的姓名“WW”。假设兴趣标签为人物A的姓名“XX”，视频剪辑客户端可以基确定第一个视频片段和第三个视频片段的片段标签中均包括人物A 的姓名“AA”，即该第一个视频片段的片段标签与兴趣标签的相似度较大，该第三个视频片段的片段标签与兴趣标签的相似度较大，则视频剪辑客户端可以将该第一个视频片段和第三个视频片段均确定为目标视频片段。也即是，若用户的兴趣标签为人物A的姓名“XX”，则视频剪辑客户端确定出的目标视频片段可以为人物A表演的视频片段。

步骤207、基于至少一个目标视频片段生成剪辑视频。

在本申请实施例中，视频剪辑客户端可以基于获取到的至少一个目标视频片段生成剪辑视频。若视频剪辑客户端获取到的目标视频片段的数量为一个，则该视频剪辑客户端可以直接将该目标视频片段确定为剪辑视频。若视频剪辑客户端获取到的目标视频片段为两个或多个，则该视频剪辑客户端可以将该两个或多个目标视频片段进行拼接，将拼接后的拼接视频片段确定为剪辑视频。并且，由于获取的目标视频片段的片段标签与兴趣标签的相似度较大，因此基于该目标视频片段生成的剪辑视频能够满足用户的需要，用户体验较好。

示例的，步骤206中获取到的目标视频片段包括待剪辑的视频中的第一个视频片段和第三个视频片段，视频剪辑客户端可以将该第一个视频片段和第三个视频片段进行拼接，将拼接后的拼接视频片段确定为剪辑视频。

需要说明的是，本申请实施例提供的视频剪辑方法的步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，例如步骤202、步骤203以及步骤205可以在步骤201之前执行，步骤203可以在步骤202之前执行。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

并且，由于本申请实施例提供的方法中的每个视频片段的片段标签包括：用于指示该视频片段包括的图像帧的图像内容的图像标签，以及用于指示该视频片段包括的音频帧的音频内容的音频标签，因此每个视频片段的片段标签能够精确反应该视频片段的内容，保证从该多个视频片段中获取目标视频片段的准确性较高，进而使得生成的剪辑视频满足用户需求，用户体验较好。

图12是本申请实施例提供的一种计算机设备的结构示意图。参考图12可以看出，该计算机设备30可以包括：处理器301。

该处理器301可以用于：

获取待剪辑的视频包括的多个视频片段中每个视频片段的片段标签，每个视频片段的片段标签包括：图像标签和音频标签，其中该图像标签用于指示该视频片段包括的图像帧的图像内容，该音频标签用于指示该视频片段包括的音频帧的音频内容；

获取用户的兴趣标签；

基于该兴趣标签，从该多个视频片段中获取至少一个目标视频片段，每个目标视频片段的片段标签与该兴趣标签的相似度大于第一相似度阈值；

基于至少一个目标视频片段生成剪辑视频。

可选的，该处理器301还可以用于：

对待剪辑的视频进行片段划分，得到该待剪辑的视频的多个视频片段；

确定该待剪辑的视频包括的多个图像帧中每个图像帧的图像标签；

确定该待剪辑的视频包括的多个音频帧中每个音频帧的音频标签；

对于每个视频片段，根据该视频片段包括的图像帧的图像标签，以及该视频片段包括的音频帧的音频标签，确定该视频片段的片段标签。

可选的，该处理器301还可以用于：

对该待剪辑的视频包括的多个图像帧进行划分，得到多个图像组，每个图像组包括至少两个连续的图像帧；

对该待剪辑的视频包括的多个音频帧进行划分，得到多个音频组，每个音频组包括至少两个连续的音频帧；

对于多个图像组中的每个图像组，根据该图像组中第一个图像帧的时刻，从多个音频组中确定第一目标音频组，并根据该图像组中最后一个图像帧的时刻，从多个音频组中确定第二目标音频组，该第一目标音频组中第一个音频帧的时刻与该第一个图像帧的时刻的差值小于第一差值阈值，该第二目标音频组中最后一个音频帧的时刻与该最后一个图像帧的时刻的差值小于第二差值阈值；

将该第一目标音频组中第一个音频帧的时刻，与该第一个图像帧的时刻中较小的时刻，确定为该视频片段的起始时刻，并将该第二目标音频组中最后一个音频帧的时刻，与该最后一个图像帧的时刻中较大的时刻，确定为该视频片段的结束时刻；

根据确定出的多个视频片段的起始时刻和结束时刻，对该待剪辑的视频进行片段划分，得到该待剪辑的视频的多个视频片段。

可选的，该第一个图像帧的时刻大于或等于该第一目标音频组中第一个音频帧的时刻，且小于或等于该第一目标音频组中最后一个音频帧的时刻，该最后一个图像帧的时刻大于或等于该第二目标音频组中第一个音频帧的时刻，且小于或等于该第二目标音频组中最后一个音频帧的时刻；

或者，该第一目标音频组为多个音频组中，第一个音频帧的时刻与该第一个图像帧的时刻的差值最小的音频组，该第二目标音频为多个音频组中，最后一个音频帧的时刻与该最后一个图像帧的时刻的差值最小的音频组。

可选的，该处理器301还可以用于：

确定该待剪辑的视频中每相邻两个图像帧的相似度；

根据每相邻两个图像帧的相似度，将该待剪辑的视频中的多个图像帧划分为多个图像组；

其中，每个图像组包括的至少两个图像帧中每相邻的两个图像帧的相似度大于或等于第二相似度阈值，且每个图像组包括的至少两个图像帧中第一个图像帧，与上一个图像组包括的至少两个图像帧中最后一个图像帧的相似度小于该第二相似度阈值。

可选的，该处理器301还可以用于：

确定该待剪辑的视频中每相邻两个音频帧的相似度；

根据每相邻两个音频帧的相似度，将该待剪辑的视频中的多个音频帧划分为多个音频组；

其中，每个音频组包括的至少两个音频帧中每相邻的两个音频帧的相似度大于或等于第三相似度阈值，且每个音频组包括的至少两个音频帧中第一个音频帧，与上一个音频组包括的至少两个音频帧中最后一个音频帧的相似度小于该第三相似度阈值。

综上所述，本申请提供了一种计算机设备，该计算机设备可以获取待剪辑的视频包括的多个视频片段中每个视频片段的片段标签和用户的兴趣视频，并基于该兴趣视频，从多个视频片段中获取至少一个目标视频片段，最后基于该至少一个目标视频片段生成剪辑视频。由于本申请实施例提供的计算机设备可以自动根据待剪辑的视频包括的多个视频片段中每个视频片段的片段标签，以及用户的兴趣标签对待剪辑的视频进行剪辑，无需人工手动剪辑，提高了视频剪辑的效率。

并且，由于每个视频片段的片段标签包括：用于指示该视频片段包括的图像帧的图像内容的图像标签，以及用于指示该视频片段包括的音频帧的音频内容的音频标签，因此每个视频片段的片段标签能够精确反应该视频片段的内容，保证从该多个视频片段中获取目标视频片段的准确性较高，进而使得生成的剪辑视频满足用户需求，用户体验较好。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的计算机设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图13是本申请实施例提供的另一种计算机设备的结构示意图，如图12所示，该计算机设备40可以包括控制器401、通信接口402、用户输入/输出接口 403、存储器404以及供电电源405。在一些实施例中，终端可是一种智能设备，例如可以是智能手机。

参考图9，控制器401包括处理器4011和RAM 4012和ROM 4013、通信接口402以及通信总线。控制器401用于控制终端的运行和操作，以及内部各部件之间通信协作以及外部和内部的数据处理功能。

通信接口402在控制器401的控制下，实现与其他设备之间控制信号和数据信号的通信。如：将接收到的用户输入信号发送至显示设备上。通信接口402 可包括WiFi芯片4021、蓝牙模块4022、NFC模块4023等其他近场通信模块中至少一种。

用户输入/输出接口403，其中，输入接口包括麦克风4031、触摸板4032、传感器4033、按键4034等其他输入接口中至少一者。如：用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能，输入接口通过将接收的模拟信号转换为数字信号，以及数字信号转换为相应指令信号。

输出接口包括将接收的用户指令发送至其他设备的接口。在一些实施例中，可以是红外接口，也可以是射频接口。

在一些实施例中，终端包括通信接口402和输出接口中至少一者。终端中配置通信接口402，如：WiFi、蓝牙、NFC等模块，可将用户输入指令通过WiFi 协议、或蓝牙协议、或NFC协议编码，发送至其他设备。

存储器404，用于在控制器401的控制下存储驱动和控制终端的各种运行程序、数据和应用。存储器404，可以存储用户输入的各类控制信号指令。例如，存储器404中存储有计算机程序，控制器401执行该计算机程序时可以实现上述方法实施例所提供的视频剪辑方法。

供电电源405，用于在控制器401的控制下为终端各元件提供运行电力支持。可以电池及相关控制电路。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当该计算机可读存储介质在计算机上运行时，使得计算机执行如上述方法实施例所提供的视频剪辑方法。

基于本申请中示出的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整技术方案。

应当理解，本申请中说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频剪辑方法，其特征在于，所述方法包括：

对待剪辑的视频包括的多个图像帧进行划分，得到多个图像组，每个所述图像组包括至少两个连续的图像帧；

对所述待剪辑的视频包括的多个音频帧进行划分，得到多个音频组，每个所述音频组包括至少两个连续的音频帧；

对于多个所述图像组中的每个所述图像组，根据所述图像组中第一个图像帧的时刻，从多个所述音频组中确定第一目标音频组，并根据所述图像组中最后一个图像帧的时刻，从多个所述音频组中确定第二目标音频组，所述图像组中第一个图像帧的时刻位于所述第一目标音频组中第一个音频帧的时刻和最后一个音频帧的时刻之间，所述图像组中最后一个图像帧的时刻位于所述第二目标音频组中第一个音频帧的时刻和最后一个音频帧的时刻之间；

将所述第一目标音频组中第一个音频帧的时刻，与所述第一个图像帧的时刻中较小的时刻，确定为视频片段的起始时刻，并将所述第二目标音频组中最后一个音频帧的时刻，与所述最后一个图像帧的时刻中较大的时刻，确定为所述视频片段的结束时刻；

根据确定出的多个所述视频片段的起始时刻和结束时刻，对所述待剪辑的视频进行片段划分，得到所述待剪辑的视频的多个视频片段；

确定所述待剪辑的视频包括的多个图像帧中每个图像帧的图像标签；

确定所述待剪辑的视频包括的多个音频帧中每个音频帧的音频标签；

对于每个所述视频片段，根据所述视频片段包括的图像帧的图像标签，以及所述视频片段包括的音频帧的音频标签，确定所述视频片段的片段标签，每个所述视频片段的片段标签包括：所述图像标签和所述音频标签，其中所述图像标签用于指示所述视频片段包括的图像帧的图像内容，所述音频标签用于指示所述视频片段包括的音频帧的音频内容；

获取用户的兴趣标签；

基于至少一个所述目标视频片段生成剪辑视频。

2.根据权利要求1所述的视频剪辑方法，其特征在于，

所述第一个图像帧的时刻大于或等于所述第一目标音频组中第一个音频帧的时刻，且小于或等于所述第一目标音频组中最后一个音频帧的时刻，所述最后一个图像帧的时刻大于或等于所述第二目标音频组中第一个音频帧的时刻，且小于或等于所述第二目标音频组中最后一个音频帧的时刻；

或者，所述第一目标音频组为多个所述音频组中，第一个音频帧的时刻与所述第一个图像帧的时刻的差值最小的音频组，所述第二目标音频为多个所述音频组中，最后一个音频帧的时刻与所述最后一个图像帧的时刻的差值最小的音频组。

3.根据权利要求1所述的视频剪辑方法，其特征在于，所述对所述待剪辑的视频包括的多个图像帧进行划分，得到多个图像组，包括：

确定所述待剪辑的视频中每相邻两个图像帧的相似度；

根据每相邻两个所述图像帧的相似度，将所述待剪辑的视频中的多个图像帧划分为多个图像组；

其中，每个所述图像组包括的至少两个图像帧中每相邻的两个图像帧的相似度大于或等于第二相似度阈值，且每个图像组包括的至少两个图像帧中第一个图像帧，与上一个图像组包括的至少两个图像帧中最后一个图像帧的相似度小于所述第二相似度阈值。

4.根据权利要求1至3任一所述的视频剪辑方法，其特征在于，所述对所述待剪辑的视频包括的多个音频帧进行划分，得到多个音频组，包括：

确定所述待剪辑的视频中每相邻两个音频帧的相似度；

根据每相邻两个所述音频帧的相似度，将所述待剪辑的视频中的多个音频帧划分为多个音频组；

其中，每个所述音频组包括的至少两个音频帧中每相邻的两个音频帧的相似度大于或等于第三相似度阈值，且每个音频组包括的至少两个音频帧中第一个音频帧，与上一个音频组包括的至少两个音频帧中最后一个音频帧的相似度小于所述第三相似度阈值。

5.一种计算机设备，其特征在于，所述计算机设备包括：处理器；所述处理器用于：

获取用户的兴趣标签；

基于至少一个所述目标视频片段生成剪辑视频。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述计算机可读存储介质在计算机上运行时，使得计算机执行如权利要求1至4任一所述的视频剪辑方法。