CN115134646A

CN115134646A - 视频编辑方法和电子设备

Info

Publication number: CN115134646A
Application number: CN202211024258.6A
Authority: CN
Inventors: 王龙
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-09-30
Anticipated expiration: 2042-08-25
Also published as: CN115134646B; WO2024040865A1

Abstract

本申请涉及视频处理领域，提供了一种视频编辑方法和电子设备，该视频编辑方法应用于电子设备，包括：显示第一界面，第一界面中包括视频图标，视频图标指示的视频为电子设备中存储的视频；检测到对视频图标中N个视频图标的第一操作；响应于第一操作，获取N个视频的信息，N为大于1的整数；基于N个视频的信息，得到N个视频的视频主题；基于N个视频中的图像与视频主题的相似度，选取N个视频中的M个视频片段；基于视频主题，得到与视频主题相匹配的音乐；基于M个视频片段与音乐，得到第一视频；显示第一视频。基于本申请的方案，能够避免编辑后的视频中存在与N个视频的整体视频主题无关的图像内容的问题，提升编辑后视频的视频质量。

Description

视频编辑方法和电子设备

技术领域

本申请涉及视频领域，具体地，涉及一种视频编辑方法和电子设备。

背景技术

随着电子设备中短视频技术的发展，用户对视频编辑功能的需求越来越高。视频混剪是指将多个视频进行分割选取其中目标片段，然后对视频片段重组并添加背景音乐生成新视频的视频编辑技术。

目前，用户可以通过现有的应用程序对多个视频进行自动编辑，实现视频混剪；但是，现有的应用程序对多个视频进行编辑时的专业性较差，导致处理后的视频中会存在问题；例如，编辑后的视频中可能会存在与多个视频的整体视频主题无关的图像内容。

因此，如何提高电子设备中自动编辑视频的专业性，提升编辑后视频的视频质量成为一个亟需解决的问题。

发明内容

本申请提供了一种视频编辑方法和电子设备，能够避免编辑后的视频中存在与N个视频的整体视频主题无关的图像内容的问题，提升编辑后视频的视频质量。

第一方面，提供了一种视频编辑方法，应用于电子设备，包括：

显示第一界面，第一界面中包括视频图标，视频图标指示的视频为电子设备中存储的视频；

检测到对视频图标中N个视频图标的第一操作；

响应于第一操作，获取N个视频的信息，N为大于1的整数；

基于N个视频的信息，得到N个视频的视频主题；

基于N个视频中的图像与视频主题的相似度，选取N个视频中的M个视频片段；

基于视频主题，得到与视频主题相匹配的音乐；

基于M个视频片段与音乐，得到第一视频；

显示第一视频。

在本申请的实施例中，可以基于N个视频中的图像与视频主题的相似度，从N个视频中选取M个视频片段；基于M个视频片段与音乐得到处理后视频，即第一视频；在本申请的方案中，基于N个视频中包括的图像与视频主题之间的相似度，能够确定N个视频中与视频主题相关度较高的M视频片段；基于本申请的方案，能够有效删除N个视频中与整体视频主题信息无关的视频片段，确保筛选出的视频片段与视频主题相关，提升编辑后的第一视频的视频质量。

结合第一方面，在第一方面的某些实现方式中，基于N个视频中的图像与视频主题的相似度，选取N个视频中的M个视频片段，包括：

将N个视频与视频主题输入至预先训练的相似度匹配模型，得到N个视频中的图像与视频主题的相似度置信值，其中，预先训练的相似度匹配模型中包括图像编码器、文本编码器与第一相似度度量模块，图像编码器用于对N个视频进行提取图像特征处理，文本编码器用于视频主题进行提取文本特征处理，第一相似度度量模块用于度量N个视频中的图像特征与视频主题的文本特征之间的相似度，相似度置信值用于表示N个视频中的图像与视频主题相似的概率；

基于N个视频中的图像与视频主题的相似度置信值，选取N个视频中的M个视频片段。

在本申请的实施例中，可以通过预先训练的相似度匹配模型识别视频中的图像特征与视频主题的文本特征之间的相似度；预先训练的相似度匹配模型可以为多模态的模型，同时支持图像和文本两种不同类型的输入数据；通过预先训练的相似度匹配模型可以将文本特征和图像特征映射到统一空间中，从而提升视觉和文本的理解能力；在本申请的方案中，基于预先训练的相似度匹配模型能够智能化的识别视频中的图像特征与视频主题的文本特征之间的相似度。

结合第一方面，在第一方面的某些实现方式中，基于M个视频片段与音乐，得到第一视频，包括：

对M个视频片段进行排序，得到排序后的M个视频片段；

将排序后的M个视频片段与音乐合成为第一视频。

在本申请的实施例中，能够使得M个视频片段中的图像内容与音乐中的音乐节奏更加吻合；例如，视频图像内容为风景，则可以对应于音乐的前奏或者舒缓的音乐部分；视频图像内容为用户的运动场景，则可以对应于背景音乐中的高潮部分；通过对M个视频片段进行排序，使得M个视频片段与音乐的节奏卡点更加匹配；从而解决第一视频的视频中存在的视频片段与背景音乐不匹配的问题，即能够解决第一视频的视频内容与音乐的节奏卡点不完全匹配的问题；提高第一视频的视频质量。

结合第一方面，在第一方面的某些实现方式中，对M个视频片段进行排序，得到排序后的M个视频片段，包括：

基于音乐的节奏对M个视频片段排序，得到排序后的M个视频片段。

在本申请的方案中，可以基于N个视频的整体视频主题信息可以选取背景音乐；并且可以基于背景音乐的节奏对M个视频进行排序，实现按照背景音乐的节奏对M个视频片段进行视频排序，使得视频片段的画面内容与音乐节奏相符合；与视频直接按照输入顺序与音乐匹配相比，本申请的方案能够提高视频中图像内容与背景音乐节奏的一致性，提升编辑后视频的视频质量。

基于M个视频片段中的视频内容对M个视频片段进行排序，得到排序后的M个视频片段。

在本申请的方案中，对于强故事线的N个视频，可以基于N个视频的文本描述信息对N个视频进行排序，得到排序后的N个视频；从排序后的N个视频中选取与视频主题信息相关度较高的M个视频片段，得到排序后的M个视频片段；基于排序后的M个视频片段与视频主题信息，确定与排序后的M个视频片段相匹配的音乐作为背景音乐；使得强故事线的N个视频的画面内容与音乐节奏相匹配的情况下，且视频的画面内容播放顺序符合因果联系，提升编辑后视频的视频质量。

应理解，强故事线的视频可以是指N个视频之间具有因果联系，基于视频编辑方法后能够识别N个视频之间的前因后果并基于前因后果的顺序对N个视频排序；例如，强故事线的视频可以包括旅行主题的视频或者出行主题的视频。

结合第一方面，在第一方面的某些实现方式中，基于音乐的节奏对M个视频片段排序，得到排序后的M个视频片段，包括：

将音乐与M个视频片段输入至预先训练的影音节奏匹配模型，得到排序后的M个视频片段，预先训练的影音节奏匹配模型中包括音频编码器、视频编码器与第一相似度度量模块，音频编码器用于对音乐进行特征提取得到音频特征，视频解码器用于对M个视频片段进行特征提取得到视频特征，第一相似度度量模块用于度量音频特征与M个视频片段的相似性。

在本申请的实施例中，可以通过预先训练的影音节奏匹配模型识别M个视频片段的视频特征与音乐的音频特征之间的相似度；预先训练的影音节奏匹配模型可以为多模态的模型，同时支持视频和音频两种不同类型的输入数据；通过预先训练的影音节奏匹配模型可以将视频特征和音频特征映射到统一空间中，从而提升视觉和音频的理解能力；在本申请的方案中，基于预先训练的影音节奏匹配模型能够智能化的识别M个视频片段的视频特征与音乐的音频特征之间的相似度。

结合第一方面，在第一方面的某些实现方式中，基于N个视频的信息，得到N个视频的视频主题，包括：

将N个视频的视频内容转换为N个文本描述信息，N个文本描述信息与N个视频一一对应，N个文本描述信息中的一个文本描述信息用于描述N个视频中一个视频的图像内容信息；

基于N个文本描述信息，得到N个视频的主题信息，文本描述信息用于将N个视频中的视频内容转换为文本信息。

在本申请的实施例中，在识别N个视频的视频主题时，通过N个视频的文本描述信息得到N个视频对应的视频主题信息；即基于N个视频的文本描述信息可以得到N个视频的整体视频主题信息；与基于N个视频的图像语义得到视频主题信息相比，文本信息比图像信息具有更抽象的语义信息，多个文本信息之间具有语言关联性，有助于推测多个文本背后隐含的主题信息，从而能够提高N视频对应的整体视频主题的准确性；例如，N个视频中包括用户收拾行李的视频、用户出门乘坐汽车前往机场的视频以及用户乘坐飞机的视频，与用户在海边散步的视频；基于图像语义可能只能得到一些图像标签，包括衣物、行李箱、用户、海边等，基于这些图像标签无法抽象出N个视频的视频主题为旅行；但是，基于N个视频的文本描述信息识别视频主题时，可以基于 N个视频文本描述信息与N个视频文本描述信息之间的语言逻辑关联性，准确地得到N个视频的视频主题信息；比如，基于N个视频包括的文本描述信息“一个用户在收拾行李”、“一个用户在乘坐飞机”、“一个用户在海边散步”，基于这些文本描述信息可以抽象出N个视频的视频主题信息为旅行；因此，通过N个视频的文本描述信息得到N个视频的视频主题信息，能够提高主题信息的准确性。

结合第一方面，在第一方面的某些实现方式中，基于N个文本描述信息，得到N个视频的主题信息，包括：

将N个文本描述信息输入至预先训练的主题分类模型，得到N个视频的主题信息，预先训练的主题分类模型为用于文本分类的深度神经网络。

在本申请的实施例中，基于预先训练的主题分类模型可以得到N个视频的文本描述信息对应的视频主题信息；通过预先训练的主题分类模型识别N个视频的文本描述信息对应的视频主题信息；与基于N个视频的图像语义得到视频主题信息相比，文本信息比图像信息具有更抽象的语义信息，多个文本信息之间具有语言关联性，有助于推测多个文本背后隐含的主题信息，从而能够提高N视频对应的整体视频主题的准确性；此外，预先训练的主题分类模型能够更加智能化的识别N个文本描述信息对应的视频主题信息。

结合第一方面，在第一方面的某些实现方式中，在预先训练的主题分类模型输出至少两个视频主题时，至少两个视频主题与N个文本描述信息相对应，还包括：

显示第二界面，第二界面中包括提示框，提示框中包括至少两个视频主题的信息；

将N个文本描述信息输入至预先训练的主题分类模型，得到N个视频的主题信息，包括：

检测到对至少两个视频主题的第二操作；

响应于第二操作，得到N个视频的主题信息。

在本申请的实施例中，在电子设备输出至少两个视频主题时，电子设备可以显示提示框；基于检测到用户对提示框中候选视频主题的操作，能够确定N个视频的视频主题信息；在一定程度上能够避免在N个视频的视频内容不完成符合预先视频主题时，电子设备无法识别N个视频的视频主题。

结合第一方面，在第一方面的某些实现方式中，基于视频主题，得到与视频主题相匹配的音乐，包括：

基于M个视频片段的时长与视频主题，得到与视频主题相匹配的音乐，音乐的时长大于或者等于M个视频片段的时长。

在本申请的实施例中，基于M个视频片段的时长可以确定背景音乐的总时长，进行音乐匹配时通常选取的背景音乐需要大于或者等于M个视频片段的总时长；基于视频主题信息，可以确定音乐的音乐风格；在本申请的方案中，能够基于M个视频片段的时长与视频主题更加准确地筛选出匹配M个视频片段的音乐作为背景音乐，提高编辑视频的视频质量；即提高第一视频的视频质量。

结合第一方面，在第一方面的某些实现方式中，预先训练的相似度匹配模型为Transformer模型。

结合第一方面，在第一方面的某些实现方式中，预先训练的相似度匹配模型是通过以下训练方式得到的：

基于第一训练数据集采用对比学习的训练方法对待训练的相似度匹配模型进行训练，得到预先训练的相似度匹配模型；其中，第一训练数据集中包括正例数据对与负例数据对，正例数据对包括第一样本文本描述信息与第一样本视频主题信息，第一样本描述信息与第一样本视频主题信息相匹配，正例数据对包括第一样本文本描述信息与第二样本视频主题信息，第一样本描述信息与第二样本视频主题信息不匹配。

结合第一方面，在第一方面的某些实现方式中，预先训练的影音节奏匹配模型为Transformer模型。

结合第一方面，在第一方面的某些实现方式中，预先训练的影音节奏匹配模型是通过以下训练方式得到的：

基于第二训练数据集采用对比学习的训练方法对待训练的相似度匹配模型进行训练，得到预先训练的相似度匹配模型；其中，第二训练数据集中包括正例数据对与负例数据对，正例数据对包括第一样本音乐与第一样本视频，第一样本音乐的节奏与第一样本视频的内容相匹配，负例数据对包括第一样本音乐与第二样本视频，第一样本音乐的节奏与第二样本视频的内容不匹配。

第二方面，提供了一种电子设备，电子设备包括一个或多个处理器与存储器；存储器与一个或多个处理器耦合，存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，一个或多个处理器调用计算机指令以使得电子设备执行：

检测到对视频图标中N个视频图标的第一操作；

响应于第一操作，获取N个视频的信息，N为大于1的整数；

基于N个视频的信息，得到N个视频的视频主题；

基于视频主题，得到与视频主题相匹配的音乐；

基于M个视频片段与音乐，得到第一视频；

显示第一视频。

结合第二方面，在第二方面的某些实现方式中，一个或多个处理器调用计算机指令以使得电子设备执行：

对M个视频片段进行排序，得到排序后的M个视频片段；

将排序后的M个视频片段与音乐合成为第一视频。

结合第二方面，在第二方面的某些实现方式中，在预先训练的主题分类模型输出至少两个视频主题时，至少两个视频主题与N个文本描述信息相对应，一个或多个处理器调用计算机指令以使得电子设备执行：

检测到对至少两个视频主题的第二操作；

响应于第二操作，得到N个视频的主题信息。

结合第二方面，在第二方面的某些实现方式中，预先训练的相似度匹配模型为Transformer模型。

结合第二方面，在第二方面的某些实现方式中，预先训练的相似度匹配模型是通过以下训练方式得到的：

结合第二方面，在第二方面的某些实现方式中，预先训练的影音节奏匹配模型为Transformer模型。

结合第二方面，在第二方面的某些实现方式中，预先训练的影音节奏匹配模型是通过以下训练方式得到的：

第三方面，提供了一种电子设备，包括用于执行第一方面或者第一方面中的任意一种实现方式中的视频编辑方法的模块/单元。

第四方面，提供一种电子设备，所述电子设备包括一个或多个处理器和存储器与；所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行第一方面或者第一方面中的任意一种实现方式中的视频编辑方法。

第五方面，提供了一种芯片系统，所述芯片系统应用于电子设备，所述芯片系统包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述电子设备执行第一方面或第一方面中的任一种视频编辑方法。

第六方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被电子设备运行时，使得该电子设备执行第一方面或者第一方面中的任意一种实现方式中的视频编辑方法。

第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被电子设备运行时，使得该电子设备执行第一方面或者第一方面中的任意一种实现方式中的视频编辑方法。

此外，本申请的实施例中，能够解决编辑后的视频中存在的视频片段与音乐不匹配的问题，即能够解决编辑后的视频内容与背景音乐的节奏卡点不完全匹配的问题；在本申请的实施例中，能够使得M个视频片段中的图像内容与音乐中的音乐节奏更加吻合；例如，视频图像内容为风景，则可以对应于音乐的前奏或者舒缓的音乐部分；视频图像内容为用户的运动场景，则可以对应于背景音乐中的高潮部分；通过对M个视频片段进行排序，使得M个视频片段与音乐的节奏卡点更加匹配；提高编辑后视频的视频质量。

附图说明

图1是一种适用于本申请的电子设备的硬件系统的示意图；

图2是一种适用于本申请的变换器Transformer模型的结构的示意图；

图3是一种Transformer模型中编码器与解码器的结构的示意图；

图4是一种适用于本申请的电子设备的软件系统的示意图；

图5是一种适用于本申请实施例的图形用户界面的示意图；

图6是一种适用于本申请实施例的图形用户界面的示意图；

图7是一种适用于本申请实施例的图形用户界面的示意图；

图8是一种适用于本申请实施例的图形用户界面的示意图；

图9是一种适用于本申请实施例的图形用户界面的示意图；

图10是一种适用于本申请实施例的图形用户界面的示意图；

图11是一种适用于本申请实施例的图形用户界面的示意图；

图12是本申请实施例提供的一种视频编辑方法的示意性流程图；

图13是本申请实施例提供的另一种视频编辑方法的示意性流程图；

图14是本申请实施例提供的一种确定N个视频中与视频主题信息相关的M个视频片段的方法的示意性流程图；

图15是本申请实施提供的一种相似度评估模型的处理流程的示意图；

图16是本申请实施例提供的一种对M个视频片段与背景音乐进行节奏匹配处理的方法的流程图；

图17是本申请实施例提供的一种影音节奏匹配模型的处理流程的示意图；

图18是本申请实施例提供的另一种视频编辑方法的示意性流程图；

图19是本申请实施例提供的另一种视频编辑方法的示意性流程图；

图20是本申请实施例提供的一种电子设备的结构示意图；

图21是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

在本申请的实施例中，以下术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

为了便于对本申请实施例的理解，首先对本申请实施例中涉及的相关概念进行简要说明。

1、图像特征

图像特征是指对图像的特点或内容进行表征的一系列属性的集合；例如，图像特征可以包括图像的颜色特征、纹理特征、形状特征以及空间关系特征等，也可以是通过某种映射得到隐式的属性表达。

2、视频特征

视频特征是指由视频中的图像序列通过某种映射获得的能够表征视频特点的属性集合。

3、文本特征

文本特征是指词语或句子经过向量化以及后续的某种映射获得的能够表征其特定语义的属性集合。

4、图像文本多模态（contrastive language–image pre-training，CLIP）模型

CLIP模型是一种基于对比的图片-文本学习的跨模态预训练模型。

5、神经网络

神经网络是指将多个单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入；每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

6、对比学习

对比学习属于自监督学习方式中的一种；对比学习是指在不依赖于标注数据的情况下，从无标注图像中学习知识的训练方式。

应理解，对比学习的目标是学习一个编码器，此编码器对同类数据进行相似的编码，并使不同类的数据的编码结果尽可能的不同。

7、变换器（Transformer）模型

Transformer模型可以由编码器与解码器两部分组成；如图2所示，编码器与解码器中可以包括多个子模块；例如，一个编码器中可以包括6个编码模块；一个解码器中可以包括6个解码模块。

示例性地，如图3所示，一个编码模块中可以包括：嵌入层、位置编码、多头注意力机制模块、残差连接与线性归一化与前向网络模块；其中，嵌入层用于将输入数据中的每一个词用一个向量进行表示；位置编码用于是构造一个与输入数据的向量维度相同的矩阵，使得输入至多头注意力机制模块的数据包含位置信息；多头注意力机制模块用于通过利用同一查询的多个不同版本并行实现多个注意力模块的工作；其思想是使用不同的权重矩阵对查询进行线性变换得到多个查询，每个新形成的查询本质上都需要不同类型的相关信息，从而允许注意模型在上下文向量计算中引入更多信息；残差连接用于防止网络退化；线性归一化用于对每一层的激活值进行归一化；前向网络模块用于对得到的词表征做进一步的变换。

示例性地，如图3所示，一个解码模块中可以包括：嵌入层、位置编码、掩码多头注意力机制模块、残差连接与线性归一化、前向网络模块与多头注意力机制模块；其中，嵌入层用于将输入数据中的每一个词用一个向量进行表示；位置编码用于是构造一个与输入数据的向量维度相同的矩阵，使得输入至多头注意力机制模块的数据包含位置信息；掩码多头注意力机制模块用于通过使用掩码，确保前面的词不会具备后面词的信息，从而保证Transformer模型预测的输出数据不会基于输入词的多少而发生改变；多头注意力机制模块用于通过利用同一查询的多个不同版本并行实现多个注意力模块的工作；其思想是使用不同的权重矩阵对查询进行线性变换得到多个查询，每个新形成的查询本质上都需要不同类型的相关信息，从而允许注意模型在上下文向量计算中引入更多信息；残差连接用于防止网络退化；线性归一化用于对每一层的激活值进行归一化；前向网络模块用于对得到的词表征做进一步的变换。

8、深度神经网络（deep neural network，DNN）

深度神经网络也可以称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的；也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

9、反向传播算法

神经网络可以采用误差反向传播（back propagation，BP）算法在训练过程中修正初始的神经网络模型中参数的大小，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如权重矩阵。

10、转场效果

转场效果又可以称为转场特效，转场效果是指两个场景之间，采用一定的技巧如划像、叠变、卷页等，实现场景或情节之间的平滑过渡，或达到丰富画面的效果。

下面将结合附图，对本申请实施例中提供的视频编辑方法和电子设备进行描述。

图1示出了一种适用于本申请的电子设备的硬件系统。

电子设备100可以是手机、智慧屏、平板电脑、可穿戴电子设备、车载电子设备、增强现实（augmented reality，AR）设备、虚拟现实（virtual reality，VR）设备、笔记本电脑、超级移动个人计算机（ultra-mobile personal computer，UMPC）、上网本、个人数字助理（personal digital assistant，PDA）、投影仪等等，本申请实施例对电子设备100的具体类型不作任何限制。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线（universal serial bus，USB）接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块（subscriber identification module，SIM）卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

需要说明的是，图1所示的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图1所示的部件更多或更少的部件，或者，电子设备100可以包括图1所示的部件中某些部件的组合，或者，电子设备100可以包括图1所示的部件中某些部件的子部件。图1示的部件可以以硬件、软件、或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元。例如，处理器110可以包括以下处理单元中的至少一个：应用处理器（application processor，AP）、调制解调处理器、图形处理器（graphics processing unit，GPU）、图像信号处理器（image signal processor，ISP）、控制器、视频编解码器、数字信号处理器（digital signal processor，DSP）、基带处理器、神经网络处理器（neural-network processing unit，NPU）。其中，不同的处理单元可以是独立的器件，也可以是集成的器件。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。例如，处理器110可以包括以下接口中的至少一个：内部集成电路（inter-integrated circuit，I2C）接口、内部集成电路音频（inter-integrated circuit sound，I2S）接口、脉冲编码调制（pulse codemodulation，PCM）接口、通用异步接收传输器（universal asynchronous receiver/transmitter，UART）接口、移动产业处理器接口（mobile industry processor interface，MIPI）、通用输入输出（general-purpose input/output，GPIO）接口、SIM接口、USB接口。

示例性地，在本申请的实施例中，处理器110可以用于执行本申请实施例提供的视频编辑方法；例如，显示第一界面，第一界面中包括视频图标，视频图标指示的视频为电子设备中存储的视频；检测到对视频图标中N个视频图标的第一操作；响应于第一操作，获取N个视频的信息，N为大于1的整数；基于N个视频的信息，得到N个视频的视频主题；基于N个视频中的图像与视频主题的相似度，选取N个视频中的M个视频片段；基于视频主题，得到与视频主题相匹配的音乐；基于M个视频片段与音乐，得到第一视频；显示第一视频。

图1所示的各模块间的连接关系只是示意性说明，并不构成对电子设备100的各模块间的连接关系的限定。可选地，电子设备100的各模块也可以采用上述实施例中多种连接方式的组合。

电子设备100的无线通信功能可以通过天线1、天线2、移动通信模块150、无线通信模块160、调制解调处理器以及基带处理器等器件实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

电子设备100可以通过GPU、显示屏194以及应用处理器实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194可以用于显示图像或视频。

可选地，显示屏194可以用于显示图像或视频。显示屏194包括显示面板。显示面板可以采用液晶显示屏（liquid crystal display，LCD）、有机发光二极管（organic light-emitting diode，OLED）、有源矩阵有机发光二极体（active-matrix organic light-emitting diode，AMOLED）、柔性发光二极管（flex light-emitting diode，FLED）、迷你发光二极管（mini light-emitting diode，Mini LED）、微型发光二极管（micro light-emitting diode，Micro LED）、微型OLED （Micro OLED）或量子点发光二极管（quantum dotlight emitting diodes，QLED）。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

示例性地，在本申请的实施例中，显示屏194可以显示用户选择的视频或者照片；以及显示处理后的视频。

示例性地，电子设备100可以通过ISP、摄像头193、视频编解码器、GPU、显示屏194以及应用处理器等实现拍摄功能。

示例性地，ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过摄像头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的图像。ISP可以对图像的噪点、亮度和色彩进行算法优化，ISP还可以优化拍摄场景的曝光和色温等参数。在一些实施例中，ISP可以设置在摄像头193中。

示例性地，摄像头193（也可以称为镜头）用于捕获静态图像或视频。可以通过应用程序指令触发开启，实现拍照功能，如拍摄获取任意场景的图像。摄像头可以包括成像镜头、滤光片、图像传感器等部件。物体发出或反射的光线进入成像镜头，通过滤光片，最终汇聚在图像传感器上。成像镜头主要是用于对拍照视角中的所有物体（也可以称为待拍摄场景、目标场景，也可以理解为用户期待拍摄的场景图像）发出或反射的光汇聚成像；滤光片主要是用于将光线中的多余光波（例如除可见光外的光波，如红外）滤去；图像传感器可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementarymetal-oxide-semiconductor，CMOS)光电晶体管。图像传感器主要是用于对接收到的光信号进行光电转换，转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。

示例性地，数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

示例性地，视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组（moving picture experts group，MPEG）1、MPEG2、MPEG3和MPEG4。

示例性地，陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴（即，x轴、y轴和z轴）的角速度。陀螺仪传感器180B可以用于拍摄防抖。例如，当快门被按下时，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航和体感游戏等场景。

示例性地，加速度传感器180E可检测电子设备100在各个方向上（一般为x轴、y轴和z轴）加速度的大小。当电子设备100静止时可检测出重力的大小及方向。加速度传感器180E还可以用于识别电子设备100的姿态，作为横竖屏切换和计步器等应用程序的输入参数。

示例性地，距离传感器180F用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，例如在拍摄场景中，电子设备100可以利用距离传感器180F测距以实现快速对焦。

示例性地，环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

示例性地，指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现解锁、访问应用锁、拍照和接听来电等功能。

示例性地，触摸传感器180K，也称为触控器件。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，触摸屏也称为触控屏。触摸传感器180K用于检测作用于其上或其附近的触摸操作。触摸传感器180K可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，并且与显示屏194设置于不同的位置。

上文详细描述了电子设备100的硬件系统，下面介绍电子设备100的软件系统。

图4是本申请实施例提供的电子设备的软件系统的示意图。

如图4所示，系统架构中可以包括应用层210、应用框架层220、硬件抽象层230、驱动层240以及硬件层250。

应用层210可以包括图库应用程序。

可选地，应用层210还可以包括相机应用程序、日历、通话、地图、导航、WLAN、蓝牙、音乐、视频、短信息等应用程序。

应用框架层220为应用层的应用程序提供应用程序编程接口（applicationprogramming interface，API）和编程框架；应用框架层可以包括一些预定义的函数。

例如，应用框架层220可以包括图库访问接口；图库访问接口可以用于获取图库的相关数据。

硬件抽象层230用于将硬件抽象化。

例如，硬件抽象模块可以包括视频编辑算法；基于视频编辑算法，可以执行本申请实施例的视频编辑的相关方法。

驱动层240用于为不同硬件设备提供驱动。例如，驱动层可以包括显示屏驱动。

硬件层250可以包括显示屏以及其他硬件设备。

有鉴于此，本申请的实施例提供了一种视频编辑方法和电子设备；在本申请的实施例中，可以将N个视频的图像内容信息转换为文本描述信息；基于N个视频的文本描述信息得到N个视频的视频主题信息；基于N个视频中的图像与视频主题信息的相关度大小，从N个视频中选取M个视频片段；基于M个视频片段与背景音乐得到处理后的视频；在本申请的方案中，通过N个视频的文本描述信息得到N个视频的视频主题信息；与基于N个视频的图像信息得到N个视频的视频主题信息相比，文本信息比图像信息具有更丰富的信息；此外，多个文本信息之间具有语言关联性，基于N个视频的文本描述信息得到视频的视频主题信息，能够提高视频主题信息的准确性；此外，在本申请的实施例中，可以基于N个视频中的图像与视频主题信息的相关性，确定N个视频中与视频主题相关度较高的M视频片段；基于本申请的方案，能够有效删除N个视频中与整体视频主题信息无关的视频片段，确保筛选出的视频片段与视频主题信息相关，提升编辑后视频的视频质量。

进一步地，在本申请的实施例中，能够解决编辑后的视频中存在的视频片段与背景音乐不匹配的问题，即能够解决编辑后的视频内容与背景音乐的节奏卡点不完全匹配的问题。

可选地，在本申请的方案中，可以基于N个视频的整体视频主题信息可以选取背景音乐；并且可以基于背景音乐的节奏对M个视频进行排序，实现按照背景音乐的节奏对M个视频片段进行视频排序，使得视频片段的画面内容与音乐节奏相符合；与视频直接按照输入顺序与音乐匹配相比，本申请的方案能够提高视频中图像内容与背景音乐节奏的一致性，提升编辑后视频的视频质量。

可选地，在本申请的方案中，对于强故事线的N个视频，可以基于N个视频的文本描述信息对N个视频进行排序，得到排序后的N个视频；从排序后的N个视频中选取与视频主题信息相关度较高的M个视频片段，得到排序后的M个视频片段；基于排序后的M个视频片段与视频主题信息，确定与排序后的M个视频片段相匹配的背景音乐；使得强故事线的N个视频的画面内容与音乐节奏相匹配的情况下，且视频的画面内容播放顺序符合因果联系，提升编辑后视频的视频质量。

本申请实施例提供的视频编辑方法，能够基于N个视频中视频内容与整体视频主题的相关性，有效地过滤掉N个视频中与整体视频主题不相关的视频片段；根据视频内容（例如，视频表达的情绪与视频的画面）匹配背景音乐；基于背景音乐的节奏或者视频片段的前后逻辑关联性，合理串联多个视频片段；使得编辑后的视频中不包括与整体视频主题无关的内容，且视频内容与背景音乐的节奏相符合，从而提高电子设备视频编辑的专业性，提升编辑后视频的视频质量。

示例性地，本申请实施例提供的视频编辑方法适用于电子设备中自动生成混剪视频；例如，电子设备检测到用户对多个视频的选择操作；识别多个视频的视频主题，并匹配出与多个视频主题相关的背景音乐；将多个视频与背景音乐进行自动合成，生成混剪视频。

可选地，本申请实施例提供的方法不仅适用于电子设备中保存的视频；同样适用于电子设备中保存的照片；例如，基于电子设备中保存的照片生成混剪视频；其中，照片包括但不限于：gif动图、JPEG格式图像、PNG格式图像等。

下面结合图5至图11对本申请实施例提供的视频编辑方法的相关界面示意图进行详细的描述。

示例性地，如图5所示，图5中的（a）所示的图形用户界面（graphical userinterface，GUI）为电子设备的桌面301；电子设备检测到用户点击桌面上的图库应用程序的控件302的操作，如图5中的（b）所示；在电子设备检测到用户点击桌面上的图库应用程序的控件302之后，显示如图5中的（c）所示的图库显示界面303；图库显示界面303中包括所有照片图标、视频图标与更多选项的控件304，电子设备检测到用户点击更多选项的控件304的操作，如图5中的（d）所示；在电子设备检测到用户点击更多选项的控件304的之后，显示如图6中的（a）所示的显示界面305；在显示界面305中，包括一键大片的控件306；电子设备检测到用户点击一键大片的控件306的操作，如图6中的（b）所示；在电子设备检测到用户点击一键大片的控件306的操作之后，显示如图6中的（c）所示的显示界面307；显示界面307中包括电子设备中保存的视频的图标与多选控件308；电子设备检测到用户点击多选控件308的操作，如图6中的（d）所示；在电子设备检测到用户点击多选控件308之后，显示如图7中的（a）所示的显示界面309，显示界面309中包括视频的图标310；电子设备检测到用户点击图标310的操作，如图7中的（b）所示；在电子设备检测到用户点击图标310的操作之后，显示如图7中的（c）所示的显示界面311；在显示界面311中包括视频的图标312，电子设备检测到用户点击图标312的操作，如图7中的（d）所示；在电子设备检测到用户点击图标312的操作之后，显示如图8中的（a）所示的显示界面313；显示界面313中包括视频的图标314，电子设备检测到用户点击图标314的操作，如图8中的（b）所示；在电子设备检测到用户点击图标314的操作之后，显示如图8中的（c）所示的显示界面315；显示界面315中包括一键大片的控件316；电子设备检测到用户点击一键大片的控件316的操作，如图8中的（d）所示。

在一个示例中，在电子设备检测到用户点击一键大片的控件316的操作之后，电子设备可以执行本申请实施例提供的视频编辑方法，对用户选择的多个视频进行视频编辑处理，显示如图9所示的显示界面317。

应理解，电子设备对于不同的视频主题信息，可以预先配置该视频主题信息对应的一种模板；因此，电子设备可以显示如图9所示的显示界面317。

在一个示例中，在电子设备检测到用户点击一键大片的控件316的操作之后，电子设备可以执行本申请实施例提供的视频编辑方法，对用户选择的多个视频进行视频编辑处理，显示如图10所示的显示界面318；显示界面318中包括基于本申请的方案得到的视频主题信息为“旅行”；此外，可以在显示界面318中显示“旅行”对应的模板1、模板2、模板3与模板4。

应理解，电子设备对于不同的视频主题信息，可以预先配置该视频主题信息对应的多种模板；因此，电子设备可以显示如图10所示的显示界面318。

在一个示例中，在电子设备检测到用户点击一键大片的控件316的操作之后，电子设备可以执行本申请实施例提供的视频编辑方法，对用户选择的多个视频进行视频编辑处理，显示如图11所示的显示界面319；基于本申请的方案，若电子设备得到两个或者两个以上的视频主题信息，则在电子设备中可以显示提示框320；如图11所示，提示框320中包括两个视频主题，分别为风景与旅行；基于用户对提示框320中的视频主题的操作，电子设备可以从两个或者两个以上的视频主题中确定一个视频主题信息。

应理解，上述是以在电子设备中选择视频进行视频编辑处理进行举例说明；本申请实施例中提供的视频编辑方法同样适用于对电子设备中保存的照片进行视频编辑处理生成混剪视频；其中，照片包括但不限于：gif动图、JPEG格式图像、PNG格式图像等；本申请对此不作任何限定。

下面结合图12至图19对本申请实施例提供的视频编辑方法进行详细描述。

图12是本申请实施例提供的一种视频编辑方法的示意性流程图。该视频编辑方法400可以由图1所示的电子设备执行；该视频编辑方法包括步骤S410至步骤S480，下面分别对步骤S410至步骤480进行详细的描述。

步骤S410、显示第一界面。

其中，第一界面中包括视频图标，视频图标指示的视频为电子设备中存储的视频。

示例性地，第一界面可以是指电子设备中图库应用程序的显示界面，如图6中的（c）所示的显示界面307；显示界面307中包括6个视频图标，该6个视频图像对应的视频为电子设备中存储的视频。

步骤S420、检测到对视频图标中N个视频图标的第一操作。

示例性地，第一操作可以为对视频图标中N个视频图像的点击操作，或者，第一操作可以为其他对N个视频图像的选中操作。

例如，如图7中的（b）所示，电子设备检测到对视频图标中的图标310的点击操作；又例如，如图7中的（d）所示，电子设备检测到对视频图标中的图标312的点击操作。

可选地，对视频图标中N个视频图像的第一操作可以是分别先后执行的操作，或者，也可以是同时执行的操作。

应理解，上述以第一操作为点击操作进行举例说明，第一操作还可以为语音指示的选中视频图标中N个视频图标的操作，或者，第一操作还可以为其他用于指示选中视频图标中N个视频图标的操作，本申请对此不作任何限定。

步骤S430、响应于第一操作，获取N个视频的信息。

其中，N为大于1的整数。

示例性地，如图8中的（b）所示，基于第一操作，电子设备可以获取3个视频的信息。

步骤S440、基于N个视频的信息，得到N个视频的视频主题。

应理解，视频主题可以是指视频中与整体的图像内容相关联的主题思想；对于不同的视频主题，对应的视频处理方式可以不同；例如，视频主题不同可以采用不同的音乐，不同的转场特效，不同的图像处理滤镜，或者，可以采用不同的视频剪辑方式。

可选地，在一种可能的实现方式中，基于N个视频的信息，得到N个视频的视频主题，包括：

将N个视频的视频内容转换为N个文本描述信息， N个文本描述信息与N个视频一一对应， N个文本描述信息中的一个文本描述信息用于描述N个视频中一个视频的图像内容信息；基于N个文本描述信息，得到N个视频的主题信息，文本描述信息用于将N个视频中的视频内容转换为文本信息。

在本申请的实施例中，在识别N个视频的视频主题时，通过N个视频的文本描述信息得到N个视频对应的视频主题信息；即基于N个视频的文本描述信息可以得到N个视频的整体视频主题信息；与基于N个视频的图像语义得到视频主题信息相比，文本信息比图像信息具有更抽象的语义信息，多个文本信息之间具有语言关联性，有助于推测多个文本背后隐含的主题信息，从而能够提高N视频对应的整体视频主题的准确性。

例如，N个视频中包括用户收拾行李的视频、用户出门乘坐汽车前往机场的视频以及用户乘坐飞机的视频，与用户在海边散步的视频；基于图像语义可能只能得到一些图像标签，包括衣物、行李箱、用户、海边等，基于这些图像标签无法抽象出N个视频的视频主题为旅行；但是，基于N个视频的文本描述信息识别视频主题时，可以基于 N个视频文本描述信息与N个视频文本描述信息之间的语言逻辑关联性，准确地得到N个视频的视频主题信息；比如，基于N个视频包括的文本描述信息“一个用户在收拾行李”、“一个用户在乘坐飞机”、“一个用户在海边散步”，基于这些文本描述信息可以抽象出N个视频的视频主题信息为旅行；因此，通过N个视频的文本描述信息得到N个视频的视频主题信息，能够提高主题信息的准确性。

可选地，在一种可能的实现方式中，基于N个文本描述信息，得到N个视频的主题信息，包括：

可选地，可以将N个视频输入至图文转换模型，得到N个视频的文本描述信息；例如，N个文本描述信息；将N个视频的文本描述信息输入至预先训练的主题分类模型，得到N个视频的主题信息。可选地，实现方式可以参见图13中步骤S530、或者图18中步骤S620与步骤S630的相关描述。

可选地，在一种可能的实现方式中，在预先训练的主题分类模型输出至少两个视频主题时，至少两个视频主题与N个文本描述信息相对应，还包括：

检测到对至少两个视频主题的第二操作；

响应于第二操作，得到N个视频的主题信息。

可选地，若步骤S440输出的主题信息为一个主题信息，则无需用户操作；若步骤S440输出为两个或者两个以上的主题信息，则可以在电子设备中显示提示框；提示框中可以包括候选视频主题信息，基于用户在提示框中候选视频主题信息的操作，确定N个视频的视频主题信息。

示例性地，步骤S440中输出两个主题信息，则可以在电子设备中显示显示第二界面，如图11所示的显示界面319；显示界面319中包括提示框320，提示框320中包括两个候选视频主题信息分别为风景与旅行，若电子设备检测到用户点击“风景”，则N个视频的视频主题信息为风景；若电子设备检测到用户点击“旅行”，则N个视频的视频主题信息为旅行。

步骤S450、基于N个视频中的图像与视频主题的相似度，选取N个视频中的M个视频片段。

示例性地，N个视频中的图像与视频主题的相似度可以通过相似度置信值，或者距离值表示；例如，若一个视频中的一个图像特征与视频主题的文本特征之间的相似度越高，则相似度置信值越大，距离度量值越小；若一个视频中的一个图像特征与视频主题的文本特征之间的相似度越低，则相似度置信值越小，距离度量值越大。

在本申请的实施例中，可以基于N个视频中的图像与视频主题信息的相关性，确定N个视频中与视频主题相关性较高的M个视频片段；基于本申请的方案，能够有效删除N个视频中与视频主题信息无法的视频片段，确保筛选出的视频片段与视频主题信息相关；另一方面，可以计算N个视频中部分或者全部图像特征与视频主题信息的相似度置信值，通过采用选取一个视频中连续的多帧图像得到的视频片段，因此视频片段的连续性较好。

在一个示例中，对于N个视频中每一个视频，可以遍历一个视频中的全部图像特征，判断一个视频中的每一个图像特征与视频主题信息的文本信息之间的相似度。

在一个示例中，对于N个视频中每一个视频，可以提取一个视频中的部分图像特征；例如，对于N个视频中的一个视频，可以等间隔的选取图像帧，对选取的图像帧进行特征提取得到图像特征。

可选地，在本申请的实施例中，M可以大于N，或者，M可以等于N，或者，M可以小于N；M的数值大小是基于N个视频中每个视频片段与视频主题信息的相似度置信值确定的。

应理解，在本申请的方案中，若一个视频中的所有图像与视频主题信息的相似度置信值均小于或者等于预设阈值，则说明该视频与视频主题信息无关，可以不保留该视频中的任意一个视频片段；若一个视频中的部分或者全部图像与视频主题信息的相似度置信值大于预设阈值，则可以保留该视频中的部分或者全部的视频片段。

可选地，在一种可能的实现方式中，基于N个视频中的图像与视频主题的相似度，选取N个视频中的M个视频片段，包括：

可选地，在一种可能的实现方式中，预先训练的相似度匹配模型为Transformer模型。

可选地，在一种可能的实现方式中，预先训练的相似度匹配模型是通过以下训练方式得到的：

可选地，步骤S450的实现方式可以参见后续图13中的步骤S540与步骤S550，或者图14，或者图15，或者图18中的步骤S640与步骤S650，或者图19中的步骤S750与步骤S760的相关描述。

步骤S460、基于视频主题，得到与视频主题相匹配的音乐。

可选地，在一种可能的实现方式中，基于视频主题，得到与视频主题相匹配的音乐，包括：

示例性地，基于M个视频片段的时长可以确定背景音乐的总时长，进行音乐匹配时通常选取的背景音乐需要大于或者等于M个视频片段的总时长；基于视频主题信息，可以确定背景音乐的音乐风格。

可选地，步骤S460的实现方式可以参见后续图13中的步骤S560，或者图18中的步骤S660，或者图19中的步骤S770的相关描述。

步骤S470、基于M个视频片段与音乐，得到第一视频。

可选地，在一种可能的实现方式中，基于M个视频片段与音乐，得到第一视频，包括：

对M个视频片段进行排序，得到排序后的M个视频片段；

将排序后的M个视频片段与音乐合成为第一视频。

在本申请的实施例中，能够使得M个视频片段中的图像内容与音乐中的音乐节奏更加吻合；例如，视频图像内容为风景，则可以对应于音乐的前奏或者舒缓的音乐部分；视频图像内容为用户的运动场景，则可以对应于背景音乐中的高潮部分；通过对M个视频片段进行排序，使得M个视频片段与音乐的节奏卡点更加匹配；从而解决编辑后的第一视频中存在的视频片段与背景音乐不匹配的问题，即能够解决编辑后的第一视频内容与音乐的节奏卡点不完全匹配的问题；提高编辑后的第一视频的视频质量。

可选地，在一种可能的实现方式中，对M个视频片段进行排序，得到排序后的M个视频片段，包括：

示例性地，对于非强故事线的视频，可以基于音乐的节奏匹配M个视频片段的最佳位置；生成处理后的视频。可选地，实现方式可以参见后续图18的相关描述。

应理解，非强故事线的视频可以是指N个视频为平等顺序的视频；N个视频之间不具有强因果关联性；例如，非强故事线的视频可以包括运动主题的视频。

例如，在本申请的方案中，可以基于N个视频的整体视频主题信息可以选取背景音乐；并且可以基于背景音乐的节奏对M个视频进行排序，实现按照背景音乐的节奏对M个视频片段进行视频排序，使得视频片段的画面内容与音乐节奏相符合；与视频直接按照输入顺序与音乐匹配相比，本申请的方案能够提高视频中图像内容与背景音乐节奏的一致性，提升编辑后视频的视频质量。

可选地，在一种可能的实现方式中，基于音乐的节奏对M个视频片段排序，得到排序后的M个视频片段，包括：

需要说明的是，上述实现方式可以参见后续图16或者图17的相关描述。

在本申请的实施例中，音乐与M个视频片段输入至预先训练的影音节奏匹配模型，得到排序后的M个视频片段；通过预先训练的影音节奏匹配模型可以实现音频特征与视频特征之间的匹配。

示例性地，对于强故事线的视频，可以排序后的N个视频包括的视频片段与视频主题的相似度置信值确定排序后的M个视频片段；基于排序后的M个视频片段与视频主题信息确定与排序后的M个视频片段相匹配的背景音乐；生成处理后的视频。

例如，在本申请的方案中，对于强故事线的N个视频，可以基于N个视频的文本描述信息对N个视频进行排序，得到排序后的N个视频；从排序后的N个视频中选取与视频主题信息相关度较高的M个视频片段，得到排序后的M个视频片段；基于排序后的M个视频片段与视频主题信息，确定与排序后的M个视频片段相匹配的背景音乐；使得强故事线的N个视频的画面内容与音乐节奏相匹配的情况下，且视频的画面内容播放顺序符合因果联系，提升编辑后视频的视频质量。

步骤S480、显示第一视频。

示例性地，第一视频可以为基于M个视频片段与音乐得到的混剪视频；可以在电子设备中显示该混剪视频。

可选地，在一种可能的实现方式中，在基于M个视频片段与音乐生成第一视频后，电子设备可以保存第一视频；在电子设备检测到指示显示第一视频的操作后，显示第一视频。

应理解，上述以N个视频的编辑进行举例说明；本申请的方案还可以适用于电子设备中保存的照片；例如，照片可以包括但不限于：gif动图、JPEG格式图像、PNG格式图像等。

在本申请的实施例中，可以将N个视频的图像内容信息转换为文本描述信息；基于N个视频的文本描述信息得到N个视频的视频主题信息；基于N个视频中的图像与视频主题信息的相关度大小，从N个视频中选取M个视频片段；基于M个视频片段与背景音乐得到处理后的视频；在本申请的方案中，通过N个视频的文本描述信息得到N个视频的视频主题信息；与基于N个视频的图像信息得到N个视频的视频主题信息相比，文本信息比图像信息具有更丰富的信息；此外，多个文本信息之间具有语言关联性，基于N个视频的文本描述信息得到视频的视频主题信息，能够提高视频主题信息的准确性；此外，在本申请的实施例中，可以基于N个视频中的图像与视频主题信息的相关性，确定N个视频中与视频主题相关度较高的M视频片段；基于本申请的方案，能够有效删除N个视频中与整体视频主题信息无关的视频片段，确保筛选出的视频片段与视频主题信息相关，提升编辑后视频的视频质量。

此外，在本申请的实施例中，能够解决编辑后的第一视频中存在的视频片段与背景音乐不匹配的问题，即能够解决编辑后的第一视频的图像内容与背景音乐的节奏卡点不完全匹配的问题；基于背景音乐的节奏或者视频片段的前后逻辑关联性，合理串联多个视频片段；从而提高编辑后视频的视频质量。

图13是本申请实施例提供的一种视频编辑方法的示意性流程图。该视频编辑方法500可以由图1所示的电子设备执行；该视频编辑方法包括步骤S510至步骤S570，下面分别对步骤S510至步骤S570进行详细的描述。

步骤S510、获取N个视频。

示例性地，N个视频可以为存储在电子设备中的视频；其中，N个视频可以为电子设备采集的视频；或者，N个视频中的部分或者全部为下载的视频；本申请对N个视频的来源不作任何限定。

例如，电子设备检测到用户对图库应用程序中N个视频的点击操作；获取N个视频。

步骤S520、获取N个视频的文本描述信息。

应理解，一个视频可以对应一个文本描述信息，文本描述信息用于描述一个视频中的内容信息；通过文本描述信息可以将视频中的图像内容转换成文字描述信息。

需要说明的是，文本描述信息用于描述一个视频中的图像内容，文本描述信息与视频中的字幕内容可以不同。

示例性地，视频1为用户收拾行李的视频，则视频1的文本描述信息可以为“一个人在收拾行李”；视频2为用户在机场乘坐飞机的视频，则视频2的文本描述信息可以为“一个人在乘坐飞机”；视频3为用户在海边漫步的视频，则视频3的文本描述信息可以为“一个人在海边漫步”。

步骤S530、基于N个视频的文本描述信息，得到N个视频的视频主题信息。

需要说明的是，在本申请的实施例中N个视频的视频主题信息为一个主题信息，即视频主题信息为N个视频作为整体对应的视频主题信息。

示例性地，视频主题可以包括但不限于：旅游、聚会、宠物、运动、风景、亲子、工作等。

可选地，可以将N个视频的文本描述信息输入至预先训练的视频主题分类模型，得到N个视频的视频主题信息；其中，预先训练的视频主题分类模型可以输出视频主题标签。

示例性地，预先训练的视频主题分类模型可以是指文本分类模型，预先训练的视频主题分类模型可以用于对输入的文本描述信息进行分类处理，得到文本描述信息对应的分类标签。

例如，预先训练的视频主题分类模型可以为神经网络；比如，预先训练的视频主题分类模型可以为深度神经网络。

可选地，预先训练的视频主题分类模型可以是基于以下训练数据集通过反向传播算法训练得到的；训练数据集包括样本文本描述信息和视频主题文本信息，样本文本描述信息与视频主题信息相对应；其中，样本文本描述信息可以为一个或者多个语句文本；视频主题文本信息可以是短语文本；待训练的视频主题分类模型对通过对大量训练数据集的学习，可以得到训练后的视频主题分类模型。

例如，样本文本描述信息可以包括：“多个人在吃饭”、“多个人在做游戏”、以及“多个人在交谈”；该样本文本描述信息对应的视频主题文本信息可以为“聚会”；又例如，样本文本描述信息可以包括“一个成年人与一个儿童在拍照”，“一个成年人与一个儿童在做游戏”；该样本文本描述信息对应的视频主题信息为“亲子”。

应理解，上述为举例说明；本申请实施例对样本文本描述信息与样本视频主题信息不作任何限定。

在本申请的实施例中，在识别N个视频的视频主题时，通过N个视频的文本描述信息得到N个视频对应的视频主题信息；即基于N个视频的文本描述信息可以得到N个视频的整体视频主题信息；与基于N个视频的图像语义得到视频主题信息相比，文本信息比图像信息具有更抽象的语义信息，多个文本信息之间具有语言关联性，有助于推测多个文本背后隐含的主题信息，从而能够提高N视频对应的整体视频主题的准确性；例如，N个视频中包括用户收拾行李的视频、用户出门乘坐汽车前往机场的视频以及用户乘坐飞机的视频，与用户在海边散步的视频；基于图像语义可能只能得到一些图像标签，包括衣物、行李箱、用户、海边等，基于这些图像标签无法抽象出N个视频的视频主题为旅行；但是，基于N个视频的文本描述信息识别视频主题时，可以基于N个视频文本描述信息与N个视频文本描述信息之间的语言逻辑关联性，准确地得到N个视频的视频主题信息；比如，基于N个视频包括的文本描述信息“一个用户在收拾行李”、“一个用户在乘坐飞机”、“一个用户在海边散步”，基于这些文本描述信息可以抽象出N个视频的视频主题信息为旅行；因此，通过N个视频的文本描述信息得到N个视频的视频主题信息，能够提高主题信息的准确性。

可选地，若步骤S530输出的主题信息为一个视频主题信息，则无需用户的操作；若步骤S530输出为两个或者两个以上的视频主题信息，则可以在电子设备中显示提示框；提示框中可以包括候选视频主题信息，基于用户对提示框中候选视频主题信息的操作，电子设备确定N个视频的视频主题信息。

在一种可能的实现方式中，多个文本描述信息对应各个视频主题信息的置信阈值均较小，则可能是输入的文本描述信息并不能完全符合某一个视频主题；此时，可以在电子设备中显示候选视频主题信息，基于用户的操作确定多个文本描述信息对应的视频主题信息。

示例性地，如图11所示，步骤S530中输出两个视频主题信息，则可以在电子设备中显示显示界面319；显示界面319中包括提示框320，提示框320中包括两个候选视频主题信息分别为风景与旅行，若电子设备检测到用户点击“风景”，则N个视频的视频主题信息为风景；若电子设备检测到用户点击“旅行”，则N个视频的视频主题信息为旅行。

步骤S540、基于N个视频中的图像与视频主题信息之间的相似度，得到N个视频中的图像与视频主题信息的相似度置信值。

可选地，可以基于相似度评估模型得到N个视频中的图像特征与视频主题信息的文本特征之间的相似度，得到N个视频中的图像特征与视频主题信息的相似度置信值。可选地，实现方式参见后续图14与图15的相关描述。

例如，可以间隔4帧提取一帧图像特征，则可以选取一个视频中的第1帧图像，第5帧图像，第10帧图像，第15帧图像等。

可选地，可以基于相似度评估模型提取N个视频中的图像特征与视频主题信息的文本特征，并评估N个视频中的图像特征与视频主题信息的文本特征之间的相似度，输出N个视频中的图像特征与视频主题信息的相似度置信值；具体实现方式如后续图14与图15所示的相关描述。

步骤S550、基于N个视频中的图像与视频主题信息的相似度置信值，得到N个视频中的M个视频片段。

示例性地，如图15所示，假设N个视频包括视频310、视频312与视频314；曲线561为视频310中包括的图像特征与视频主题信息的文本特征之间的相似度曲线；曲线562为视频312中包括的图像特征与视频主题信息的文本特征之间的相似度曲线；曲线563为视频314中包括的图像特征与视频主题信息的文本特征之间的相似度曲线；基于曲线561可以确定选取视频310中的图像3101与图像3102组成视频片段1；基于曲线562可以确定选取视频312中的图像3121、图像3122与图像3123组成视频片段2；基于曲线563可以确定选取视频314中的图像3141、图像3142、图像3143与图像3144组成视频片段3。

应理解，图15为举例说明，也可以从一个视频中选取两个或者两个以上的视频片段，其中，两个视频片段可以是连续的两个视频片段，或者也可以是不连续的两个视频片段（例如，第1帧至第5帧组成一个视频片段；第10帧至第13帧组成一个视频片段）；但是，对一个视频片段而言，视频片段中包括的多帧图像为连续的多帧图像；或者，也可以从一个视频中不选取任何一个视频片段；是否从一个视频中选取视频片段取决于该视频中包括的图像特征与视频主题信息的相似度置信值；若一个视频中不存在与视频主题相关的图像特征，则可以不选取该视频中的视频片段。

在本申请的实施例中，可以基于N个视频中的图像与视频主题信息的相关性，确定N个视频中与视频主题相关性较高的M个视频片段；基于本申请的方案，能够有效删除N个视频中与视频主题信息无法的视频片段，确保筛选出的视频片段与视频主题信息相关；另一方面，可以计算N个视频中部分或者全部图像与视频主题信息的相似度置信值时，通过采用选取一个视频中连续的多帧图像得到的视频片段，因此视频片段的连续性较好。

可选地，可以保留M个视频片段中部分或者全部视频片段中的原声。

步骤S560、基于M个视频片段与视频主题信息进行音乐匹配处理，得到背景音乐。

应理解，步骤S560中得到的背景音乐可以是指图12步骤S460中的音乐。

例如，若视频主题为聚会，则背景音乐可以为欢快的音乐风格；若视频主题为风景，则背景音乐可以为舒缓的音乐风格。

应理解，上述为举例说明，本申请对视频主题与背景音乐的音乐风格不作任何限定。

可选地，可以基于M个视频片段与视频主题信息在候选音乐库中进行音乐匹配处理，得到背景音乐信息；其中，候选音乐库中可以包括不同音乐风格与音乐时长的音乐。

示例性地，基于M个视频片段的时长可以确定背景音乐的总时长；基于视频主题信息可以确定背景音乐的音乐风格；基于总时长与音乐风格可以在候选音乐库中该音乐风格的候选音乐中随机选择，得到背景音乐。

示例性地，基于M个视频片段的时长可以确定背景音乐的总时长；基于视频主题信息可以确定背景音乐的音乐风格；基于总时长与音乐风格可以在候选音乐库中按照音乐热度进行选择，得到背景音乐。

示例性地，基于M个视频片段的时长可以确定背景音乐的总时长；基于视频主题信息可以确定背景音乐的音乐风格；基于总时长与音乐风格可以在候选音乐库中基于用户的喜好进行选择，得到背景音乐。

例如，在候选音乐库中基于用户播放音乐的频率选择满足总时长与音乐风格的背景音乐。

示例性地，基于M个视频片段的时长可以确定背景音乐的总时长；基于视频主题信息可以确定背景音乐的音乐风格；可以在候选音乐库中选择与视频主题匹配度最高的音乐为背景音乐。

示例性地，基于M个视频片段的时长可以确定背景音乐的总时长；基于视频主题信息可以确定背景音乐的音乐风格；可以在候选音乐库中选择多个音乐进行剪辑得到背景音乐；其中，多个音乐的权重或者时间长短可以基于用户的喜好或者预设的固定参数。

应理解，上述为举例描述，本申请对音乐匹配处理的具体实现方式不作任何限定。

步骤S570、对M个视频片段与背景音乐进行匹配处理，得到处理后的视频（第一视频的一个示例）。

示例性地，可以基于背景音乐的音乐节奏确定M个视频片段的排序，使得M个视频片段与背景音乐之间实现画面内容与音乐节奏相符合。

应理解，节奏匹配处理是为了使得M个视频片段与背景音乐的更好的融合，使得M个视频片段中的图像内容与背景音乐中的音乐节奏更加吻合；例如，视频图像内容为风景，则可以对应于背景音乐的前奏或者舒缓的音乐部分；视频图像内容为用户的运动场景，则可以对应于背景音乐中的高潮部分；通过进行节奏匹配处理，使得M个视频片段与背景音乐的节奏卡点更加匹配，提高处理后的视频质量。

可选地，可以将M个视频片段与背景音乐输入至预先训练的影音节奏匹配模型，得到M个视频片段中全部或者部分视频片段的位置信息；其中，影音节奏匹配模型中可以包括音频编码器、视频编码器与相似度度量模块；其中，音频编码器用于提取背景音乐的音频特征；视频编码器可以用于提取视频特征；相似度度量模块用于度量音频特征与视频特征之间的相似度；可选地，实现方式可以参见后续图16与图17的相关描述。

需要说明的是，在本申请的实施中，影音节奏匹配模型的网络可以为神经深度网络；例如，影音节奏匹配模型可以采用如图2所示的Transformer模型的结构；训练影音节奏匹配模型时，可以采用对比学习的训练方式。

示例性地，影音节奏匹配模型可以为神经网络，可以通过获取样本音乐短片对待训练的影音节奏匹配模型进行训练，得到训练后的影音节奏匹配模型。例如，影音节奏匹配模型的整体训练架构可以采用对比学习模型；构建训练数据对时，可以采用背景音乐与视频内容匹配的数据对作为正例，采用背景音乐与视频内容不匹配的数据对作为负例，训练视频编码器和音频编码器，使得正例数据对的相似度大于负例数据对的相似度。

应理解，影音节奏匹配模型可以多模态的预训练架构，可以同时支持图像和文本两种不同类型的输入数据；通过跨模态的对比学习方法将文本和图像映射到统一空间中，从而提升视觉和文本的理解能力。

在本申请的实施例中，通过对M个视频片段与背景音乐进行节奏匹配处理，可以实现按照背景音乐的节奏对M个视频片段进行视频排序，使得视频片段的画面内容与音乐节奏相符合，即实现M个视频片段的图像内容与背景音乐的卡点；与视频直接按照输入顺序与音乐匹配相比，本申请的方案能够提高视频中图像内容与背景音乐节奏的一致性，提高用户体验。

可选地，由于背景音乐的时长大于或者等于M个视频片段的总时长；在背景音乐的时长大于M个视频片段的时长时，可以在M个视频片中的最后一个视频片段进行慢动作播放；或者，加入转场特效，在M个视频内容播放完后可以继续重复播放M个视频片段等。

可选地，在步骤S570中也可以基于M个视频片段的上传顺序，或者，M个视频片段的时间戳信息的顺序与背景音乐进行匹配处理，得到处理后的视频。

需要说明的是，上述以对图库应该程序中包括的N个视频的编辑进行举例说明；本申请的方案还可以适用于编辑图库应用程序中的照片；例如，照片可以包括但不限于：gif动图、JPEG格式图像、PNG格式图像等。

在本申请的实施例中，可以将N个视频的图像内容信息转换为文本描述信息；基于N个视频的文本描述信息得到N个视频的视频主题信息；基于N个视频中的图像与视频主题信息的相关度大小，从N个视频中选取M个视频片段；基于M个视频片段与背景音乐得到处理后的视频；在本申请的方案中，通过N个视频的文本描述信息得到N个视频的视频主题信息；与基于N个视频的图像信息得到N个视频的视频主题信息相比，文本信息比图像信息具有更丰富的信息；此外，多个文本信息之间具有语言关联性，基于N个视频的文本描述信息得到视频的视频主题信息，能够提高视频主题信息的准确性；此外，在本申请的实施例中，可以基于N个视频中的图像与视频主题信息的相关性，确定N个视频中与视频主题相关度较高的M视频片段；基于本申请的方案，一方面能够有效删除N个视频中与视频主题信息无关的视频片段，确保筛选出的视频片段与视频主题信息相关；另一方面，在计算N个视频中每个视频片段与视频主题信息的相似度置信值时，通过采用选取一个视频中连续的多帧图像得到的视频片段，因此视频片段的连续性较好；从而提高编辑后视频的视频质量。

进一步地，在本申请的实施例中，基于N个视频的视频主题信息选取M个视频的背景音乐；并且可以基于背景音乐的节奏对M个视频进行排序，实现按照背景音乐的节奏对M个视频片段进行视频排序，使得视频片段的画面内容与音乐节奏相符合；与视频直接按照输入顺序与音乐匹配相比，本申请的方案能够提高视频中图像内容与背景音乐节奏的一致性，提高用户体验。

示例性地，下面结合图14与图15对图13中的步骤S540与步骤S550的实现方式进行详细描述。

图14是本申请实施例提供的一种确定N个视频中与视频主题信息相关的M个视频片段的方法的示意性流程图。该方法可以由图1所示的电子设备执行；该方法包括步骤S551至步骤S555，下面分别对步骤S551至步骤S555进行详细的描述。

步骤S551、基于相似度评估模型中的图像编码器对N个视频进行特征提取，得到N个视频中的图像特征。

可选地，在本申请的实施例中可以获取训练数据集对待训练的相似度评估模型进行训练，得到训练后的相似度评估模型；例如，相似度评估模型的整体训练架构可以采用对比学习模型；构建训练数据对时，可以采用文本描述信息与视频主题信息匹配的数据对作为正例，采用文本描述信息与视频主题信息不匹配的数据对作为负例，训练图像编码器和文本编码器，使得正例数据对的相似度大于负例数据对的相似度。

例如，训练数据集包括样本视频，与样本视频匹配的视频主题信息，与样本视频不匹配的视频主题信息；比如，样本视频可以包括旅游的视频，与样本视频的视频主题信息为“旅游”的文本信息；与样本视频的视频主题不匹配的视频主题信息为“运动”的文本信息；通过大量的训练数据集使得相似度评估模型能够识别相匹配的文本特征与图像特征，例如，使得输入相匹配的文本特征与图像特征时待训练的相似度评估模型中的相似度度量模块输出的距离度量值越小；使得输入不匹配的文本特征与图像特征时待训练的相似度评估模型中的相似度度量模块输出的距离度量值越大；或者，使得输入相匹配的文本特征与图像特征时待训练的相似度评估模型中的相似度度量模块输出的相似度置信值越大；使得输入不匹配的文本特征与图像特征时待训练的相似度评估模型中的相似度度量模块输出的相似度置信值越小。

应理解，训练后的相似度评估模型能够识别相匹配的文本特征与图像特征。

可选地，可以通过相似度评估模型中的图像编码器对N个视频中的每一帧图像进行图像特征提取，得到N个视频中包括的全部图像特征。

可选地，可以基于相同的间隔帧数通过相似度评估模型中的图像编码器提取N个视频中的图像特征，得到N个视频中的部分图像特征。

例如，可以间隔4帧提取一帧图像特征，则可以提取N个视频中一个视频中的第1帧图像，第5帧图像，第10帧图像，第15帧图像等。

应理解，上述为举例说明，在本申请的实施例中；对于N个视频中的一个视频而言，可以通过遍历每一帧图像，提取一个视频中的全部图像特征；或者，可以等间隔帧数，提取一个视频中的部分图像特征；本申请对此不作任何限定。

可选地，相似度评估模型可以如图15所示，相似度评估模型中可以包括文本编码器、图像编码器与相似度度量模块（第一相似度度量模块的一个示例）；其中，文本编码器用于提取文本特征；图像编码器可以用于提取图像特征；相似度度量模块用于度量文本特征与图像特征之间的相似度。

示例性地，相似度评估模型可以为对比学习模型。

步骤S552、基于相似度评估模型中的文本编码器对视频主题信息进行特征提取，得到视频主题信息的文本特征。

应理解，文本特征是指词语或句子经过向量化以及后续的某种映射获得的能够表征其特定语义的属性集合。

步骤S553、基于相似度评估模型中的相似度度量模块，得到图像特征与文本特征之间的相似度置信值。

示例性地，基于相似度评估模型可以提取N个视频中的图像特征以及提取视频主题信息的文本特征；对图像特征与文本特征进行比较，得到图像特征与文本特征之间的相似度。其中，相似度评估模型可以输出距离度量值，或者，相似度评估模型可以输出相似度置信值；若相似度评估模型输出距离度量值，则距离度量值越小表示图像特征与文本特征之间的相似度越高；基于距离度量值可以得到图像特征与文本特征之间的相似度置信值；若相似度评估模型输出相似度置信值，则相似度置信值越大，表示图像特征与文本特征之间的相似度越高。

例如，距离度量值可以为图像特征与文本特征之间的cos值。

步骤S554、基于图像特征与文本特征的相似度置信值在视频中选取连续的多帧图像特征，得到一个视频片段。

示例性地，例如图15所示，对于一个视频可以得到该视频中图像特征与视频主题信息的文本特性的相似度曲线；基于相似度曲线可以从一个视频中选择一个或者多个视频片段，一个视频片段包括连续的多帧图像。

在本申请的实施例中，选取与视频主题相关的多帧连续的图像得到一个视频片段；基于本申请中的方案，能够确保选取的视频片段与整体的视频主题相关。

步骤S555、基于图像特征与文本特征的相似度置信值，选取N个视频中的M个视频片段。

示例性地，对于一个视频可以得到该视频中图像特征与视频主题信息的文本特征相似度曲线；基于相似度曲线，可以从视频的整体确定视频中与视频主题相关的图像；则可以从一个视频中提取连续的多帧图像得到一个视频片段。

示例性地，如图15所示，假设N个视频为视频310、视频312与视频314；曲线561为视频310中包括的图像特征与视频主题信息的文本特征之间的相似度曲线；曲线562为视频312中包括的图像特征与视频主题信息的文本特征之间的相似度曲线；曲线563为视频314中包括的图像特征与视频主题信息的文本特征之间的相似度曲线；基于曲线561可以确定选取视频310中的图像3101与图像3102组成视频片段1；基于曲线562可以确定选取视频312中的图像3121、图像3122与图像3123组成视频片段2；基于曲线563可以确定选取视频314中的图像3141、图像3142、图像3143与图像3144组成视频片段3。

应理解，图15为举例说明，也可以从一个视频中选取两个或者两个以上的视频片段，其中，两个视频片段可以是连续的两个视频片段或者也可以是不连续的两个视频片段（例如，第1帧至第5帧组成一个视频片段；第10帧至第13帧组成一个视频片段）；但是，对一个视频片段而言，视频片段中包括的多帧图像为连续的多帧图像；或者，也可以从一个视频中不选取任何一个视频片段；是否从一个视频中选取视频片段取决于该视频中图像特征与视频主题信息的相似度置信值；若一个视频中不存在与视频主题相关的图像特征，则可以不选取该视频中的视频片段。

在本申请的实施例中，通过预先训练的相似度评估模型能够识别出N个视频中与整体视频主题相关的图像特征；基于与视频主题相关的图像特征筛选出N个视频中与视频主题相关的M个视频片段，剔除掉N个视频中与视频主题无法的视频片段；基于本申请的方案，一方面能够有效删除N个视频中与视频主题信息无法的视频片段，确保筛选出的视频片段与视频主题信息相关；基于筛选出的视频片段与背景音乐得到编辑后的视频，从而提高编辑后视频的视频质量。

示例性地，下面结合图16与图17对图13中的步骤S570的实现方式进行详细描述。

图16是本申请实施例提供的一种对M个视频片段与背景音乐进行匹配处理的方法的流程图。该方法可以由图1所示的电子设备执行；该方法包括步骤S571至步骤S574，下面分别对步骤S571至步骤S574进行详细的描述。

步骤S571、基于影音节奏匹配模型中的音频编码器对背景音乐进行特征提取，得到音频特征。

示例性地，影音节奏匹配模型可以如图17所示；影音节奏匹配模型中可以包括音频编码器、视频编码器与相似度度量模块；其中，音频编码器用于提取背景音乐的音频特征；视频编码器可以用于提取视频特征；相似度度量模块用于度量音频特征与视频特征之间的相似度。

步骤S572、基于影音节奏匹配模型中的视频编码器对M个视频片段进行特征提取，得到视频特征。

应理解，一个视频特征中包括多帧图像特征；M个视频片段则可以对于M个视频特征。

步骤S573、基于影音节奏匹配模型中的相似度度量模块，得到音频特征与视频特征之间的相似度置信值。

示例性地，可以将背景音乐分割成多段音频特征；通过遍历M个视频特征中每一个视频特征与多段音频特征中每段音频特征的相关性，得到M个视频特征中每一个视频特征与多个音频特征中相似度最高的音频特征；基于多个音频特征在整体背景音乐中的位置，则可以确定该音频特征对应的视频片段在M个视频片段中的排序。

示例性地，基于影音节奏匹配模型中的相似度度量模块可以输出音频特征与视频特征之间的距离度量值；距离度量值越大，表示音频特征与视频特征之间相似度越小，则音频特征与视频特征之间的相关性越低，相似度置信值越小；距离度量值越小，表示音频特征与视频特征之间相似度越高，则音频特征与视频特征之间的相关性越高，相似度置信值越大。例如，距离度量值可以为音频特征与视频特征之间的cos值。

步骤S574、基于相似度置信值，得到M个视频片段对应背景音乐的最佳匹配位置。

示例性地，基于相似度置信值可以得到M个视频片段与背景音乐匹配的最佳位置，使得M个视频片段的图像内容与背景音乐的音乐节奏实现相匹配。

例如，M个视频片段包括视频片段1、视频片段2与视频片段3；将背景音乐可以分割为3段音频特征，分别为音频特征1、音频特征2与音频特征3；分别判断音频特征1与视频片段1、视频片段2以及视频片段3之间的相关性，得到3个视频片段中与音频特征1匹配度最高的音频特征；判断判断音频特征2与视频片段1、视频片段2以及视频片段3之间的相关性，得到3个视频片段中与音频特征2匹配度最高的音频特征；判断音频特征3与视频片段1、视频片段2以及视频片段3之间的相关性，得到3个视频片段中与音频特征3匹配度最高的音频特征；最终可以输出每一个音频特征对应的视频片段。

例如，如图17所示，假设M个视频片段为3个视频片段，影音节奏匹配模型可以输出音频特征1对应视频片段3，音频特征2对应视频片段2；音频特征3对应视频片段1；从而得的与背景音频的节奏匹配的M个视频片段的排序。

可选地，视频图像内容为风景，则可以对应于背景音乐的前奏或者舒缓的音乐部分；视频图像内容为用户运动场景，则可以对应于背景音乐中的高潮部分。

可选地，在本申请的实施例中可以获取训练数据集对待训练的影音节奏匹配模型进行训练，得到训练后的影音节奏匹配模型；其中，训练数据集包括样本匹配音乐短片与样本不匹配音乐短片；样本匹配音乐短片是指音乐与图像内容相匹配的音乐短片；样本不匹配音乐短片是指音乐与图像内容不匹配的音乐短片；例如，对音乐短片1的背景音乐与音乐短片2的图像视频进行混合，得到样本不匹配音乐短片；通过对大量的训练数据集的学习，使得影音节奏匹配模型够基于输入的背景音乐的节奏对输入的M个视频片段进行排序。

在本申请的实施例中，通过影音节奏匹配模型对M个视频片段进行排序，可以实现按照背景音乐的节奏对M个视频片段进行视频排序，使得视频片段的画面内容与音乐节奏相符合；与视频直接按照输入顺序与音乐匹配相比，本申请的方案能够提高视频中图像内容与背景音乐节奏的一致性，提高用户体验。

可选地，在本申请的实施例中，电子设备检测到用户选择的N个视频，N个视频可以是指具有强故事线的视频；或者，N个视频内容可以为非强故事线的视频；下面结合图18与图19分别对非强故事性的视频编辑方法与强故事性的视频编辑方法进行详细描述。

应理解，强故事线的视频可以是指N个视频之间具有因果联系，基于视频编辑方法后能够识别N个视频之间的前因后果并基于前因后果的顺序对N个视频排序；例如，强故事线的视频可以包括旅行主题的视频或者出行主题的视频；非强故事线的视频可以是指N个视频为平等顺序的视频；N个视频之间不具有强因果关联性；例如，非强故事线的视频可以包括运动主题的视频。

示例性地，强故事线的视频可以包括视频主题为旅游的视频；例如，N个视频中包括在家收拾行李的视频；出门打车到达机场的视频；乘坐飞机的视频；到达目的地，在海边漫步的视频；则这4个视频是具有前后因果联系的，通过需要先收拾行李然后乘坐人机到达目的地，在目的地地旅游。

示例性地，非强故事线的视频可以包括视频主题为运动的视频；例如，N个视频中包括在篮球场上奔跑的视频；上篮投球的视频；在篮球场上传球的视频；则这个3个视频不具有很强的因果关联，对于一场球赛而言，可以存在多次上篮投球、篮球场上传球以及篮球场上奔跑的过程，则对于3个视频的排序的前后要求并非存在唯一性排序。

实现方式一：对于非强故事线的视频，获取N个视频；基于N个视频的文本描述信息得到N个视频的视频主题；基于N个视频中的图像与视频主题的相似度置信值确定N个视频中的M个视频片段；基于M个视频片段与视频主题确定背景音乐；基于背景音乐的节奏匹配M个视频片段的最佳位置；生成处理后的视频。

图18是本申请实施例提供的一种视频编辑方法的示意性流程图。该视频编辑方法600可以由图1所示的电子设备执行；该视频编辑方法600包括步骤S610至步骤S680，下面分别对步骤S610至步骤S680进行详细的描述。

步骤S610、获取N个视频。

例如，电子设备检测到用户对图库应用程序中N个视频的点击操作；可以获取N个视频。

可选地，对于非强故事线的N个视频的排序可以是基于N个视频上传的顺序，对N个视频进行排序；或者，可以是基于视频的时间戳信息（例如，录制视频或者下载视频的时间信息），对N个视频进行排序。

步骤S620、通过图文转换模型得到N个视频的文本描述信息。

示例性地，一个视频可以对应一个文本描述信息；N个视频通过图文转换模型可以得到N个文本描述信息。

可选地，图文转换模型可以用于将视频转换为文本信息；即可以将视频中包括的图像信息转换为文本描述信息；基于文本描述信息描述图像中包括的图像内容。

示例性地，图文转换模型可以包括CLIP模型。

步骤S630、将N个视频的文本描述信息输入至预先训练的视频主题分类模型，得到视频主题信息。

示例性地，预先训练的视频主题分类模型可以为预先训练的文本分类模型，该文本分类模型可以为深度神经网络。

可选地，视频主题分类模型可以是基于以下训练数据集通过训练得到的；训练数据集包括样本文本描述信息和视频主题文本信息，样本文本描述信息与视频主题信息相对应；其中，样本文本描述信息可以是一个或者多个语句文本；视频主题文本信息可以是短语文本。

例如，样本文本描述信息可以包括：“多个人在吃饭”、“多个人在做游戏”、以及“多个人在交谈”；该样本描述文本对应的视频主题文本信息可以为“聚会”；又例如，样本文本描述信息可以包括“一个成年人与一个儿童在拍照”，“一个成年人与一个儿童在做游戏”；该样本描述文本对应的视频主题信息为“亲子”。

示例性地，将一个视频输入至图文转换模型可以得到一个文本描述信息；N个视频可以得到N个文本描述信息；将N个文本描述信息输入至预先训练的视频主题分类模型，可以得到N个文本描写信息对应的视频主题信息；其中，视频主题信息可以包括但不限于：旅游、聚会、宠物、运动、风景、亲子、工作等。在本申请的实施例中，在识别N个视频的视频主题信息时，通过N个视频的文本描述信息得到N个视频的视频主题信息；与基于N个视频的图像信息得到N个视频的视频主题信息相比，文本信息比图像信息具有更丰富的信息；此外，多个文本信息之间具有语言关联性，基于N个视频的文本描述信息得到视频的视频主题信息，能够提高主题信息的准确性；例如，N个视频中包括用户收拾行李的视频、用户出门乘坐汽车前往机场的视频以及用户乘坐飞机的视频，与用户在海边行为的视频；基于图像信息可能只能得到一些标签，包括衣物、行李箱、用户、海边等，基于这些图像标签无法抽象出N个视频的主题为旅行；但是，基于N个视频的文本描述信息识别N个视频的主题时，可以基于N个视频文本描述信息与N个视频文本描述信息之间的语言逻辑关联性，准确地得到N个视频的视频主题信息；比如，基于N个视频包括的文本描述信息“一个用户在收拾行李”、“一个用户在乘坐飞机”、“一个用户在海边漫步”，基于这些文本描述信息可以抽象出N个视频的视频主题信息为旅行；因此，通过N个视频的文本描述信息得到N个视频的视频主题信息，能够提高主题信息的准确性。

可选地，若步骤S630输出的主题信息为一个主题信息，则无需用户操作；若步骤S630输出为两个或者两个以上的主题信息，则可以在电子设备中显示提示框；提示框中可以包括候选视频主题信息，基于用户在提示框中候选视频主题信息的操作，确定N个视频的视频主题信息。

示例性地，如图11所示，步骤S630中输出两个主题信息，则可以在电子设备中显示显示界面319；显示界面319中包括提示框320，提示框320中包括两个候选视频主题信息分别为风景与旅行，若电子设备检测到用户点击“风景”，则N个视频的视频主题信息为风景；若电子设备检测到用户点击“旅行”，则N个视频的视频主题信息为旅行。

可选地，步骤S630的实现方式可以参见图13中的步骤S530中的相关描述。

步骤S640、基于相似度评估模型得到N个视频中的图像特征与视频主题信息的相似度置信值。

应理解，相似度评估模型可以是预先训练的神经网络模型；相似度评估模型用于输出N个视频中每个视频包括的图像特征与视频主题信息之间的相关性。如图15所示，相似度评估模型中可以包括图像编码器、文本编码器与相似度度量模块；其中，图像编码器用于对视频中的图像进行特征提取，得到图像特征；文本编码器用于对视频主题信息进行特征提取，得到文本信息；相似度度量模块用于评估图像特征与文本特征之间的相似性。

在本申请的实施例中，可以提取N个视频中的全部图像特征；或者，可以提取N个视频中的部分图像特征；本申请对此不作任何限定。

可选地，步骤S640的具体描述可以参见图13中的步骤S540的相关描述；或者，图14中的步骤S551至步骤S553的相关描述；或者，图15中的相关描述。

步骤S650、基于N个视频中的图像与视频主题信息的相似度置信值，得到N个视频中的M个视频片段。

示例性地，基于N个视频中包括的图像特征与视频主题信息的文本特征之间的相似度置信值，可以在N个视频中的选取连续的多帧图像特征，得到一个视频片段。

示例性地，如图15所示，对于一个视频可以得到该视频中图像特征与视频主题信息的相似度曲线；基于相似度曲线可以从视频中选择连续的多帧图像得到一个视频片段。

在本申请的实施例中，可以在一个视频中选取与视频主题相关的多帧连续的图像得到一个视频片段；基于本申请中的方案，能够确保选取的视频片段与整体的视频主题相关。

步骤S660、基于M个视频片段的时长与视频主题信息，在候选音乐库中进行音乐匹配处理，得到背景音乐。

示例性地，基于M个视频片段的时长可以确定背景音乐的总时长，进行音乐匹配时通常选取的背景音乐需要大于或者等于M个视频片段的总时长；基于视频主题信息可以确定背景音乐的音乐风格。

例如，若视频主题为聚会，则背景音乐为欢快的音乐风格；若视频主题为风景，则背景音乐为舒缓的音乐风格。

示例性地，基于M个视频片段的时长可以确定背景音乐的总时长；基于视频主题信息可以确定背景音乐的音乐风格；基于总时长与音乐风格可以在候选音乐库中随机选择背景音乐。

示例性地，基于M个视频片段的时长可以确定背景音乐的总时长；基于视频主题信息可以确定背景音乐的音乐风格；基于总时长与音乐风格可以在候选音乐库中按照音乐热度选择背景音乐。

示例性地，基于M个视频片段的时长可以确定背景音乐的总时长；基于视频主题信息可以确定背景音乐的音乐风格；基于总时长与音乐风格可以在候选音乐库中基于用户的喜好选择背景音乐。

步骤S670、将M个视频片与背景音乐输入至预先训练的影音节奏匹配模型，得到排序后的M个视频片段。

示例性地，影音节奏匹配模型可以为神经网络，可以通过获取样本音乐短片对待训练的影音节奏匹配模型进行训练，得到训练后的影音节奏匹配模型。例如，如图17所示，影音节奏匹配模型中可以包括音频编码器、视频编码器与相似度度量模块；其中，音频编码器用于提取背景音乐的音频特征；视频编码器可以用于提取视频特征；相似度度量模块用于度量音频特征与视频特征之间的相似度。

在一个示例中，影音节奏匹配模型可以输出距离度量值，距离度量值用于表示音频特征与视频特征之间的距离；距离度量值越大，表示音频特征与视频特征之间相似度越小；距离度量值越小，表示音频特征与视频特征之间相似度越大；基于距离度量值可以得到音频特征与视频特征之间的相似度置信值。

在一个示例中，影音节奏匹配模型可以输出相似度置信值，相似度置信值用于表示音频特征与视频特征相似的概率值大小；相似度置信值越大，表示音频特征与视频特征之间相似度越高；相似度置信值越大越小，表示音频特征与视频特征之间相似度越小。

例如，可以将背景音乐与M个视频片段输入至预先训练的影音节奏匹配模型，影音节奏匹配模型可以输出M个视频片段的排序；假设，M个视频片段包括视频片段1、视频片段2与视频片段3；将背景音乐可以分割为3段音频特征，分别为音频特征1、音频特征2与音频特征3；分别判断音频特征1与视频片段1、视频片段2以及视频片段3之间的相关性，得到3个视频片段中与音频特征1匹配度最高的音频特征；判断判断音频特征2与视频片段1、视频片段2以及视频片段3之间的相关性，得到3个视频片段中与音频特征2匹配度最高的音频特征；判断音频特征3与视频片段1、视频片段2以及视频片段3之间的相关性，得到3个视频片段中与音频特征3匹配度最高的音频特征；最终可以输出每一个音频特征对应的视频片段。

步骤S680、基于排序后的M个视频片段与背景音频，得到处理后的视频。

示例性地，基于排序后的M个视频片段的视频内容与背景音乐的音频信息可以得到处理后的视频。

可选地，在对排序后的M个视频片段中增加背景音乐之后，还可以对视频进行其他剪辑处理，得到处理后的视频；其中，其他剪辑处理可以包括：视频添加图像特效、视频添加文字，或者视频添加转场动画效果等。

应理解，视频的转场效果是指两个场景（例如，两段素材）之间，采用一定的技巧；例如，划像、叠变、卷页等，实现场景或情节之间的平滑过渡，或达到丰富画面吸引观众的效果。

需要说明的是，除上述描述之外，图18中与图12至图17中相同的部分可以参照图12至图17的相关描述，此处不再赘述。

实现方式二：对于强故事线的视频，获取N个视频；基于N个视频的文本描述信息得到N个视频的视频主题；基于N个视频的文本描述信息对N个视频进行排序，得到排序后的N个视频；基于排序后的N个视频包括的视频片段与视频主题的相似度置信值确定排序后的M个视频片段；基于排序后的M个视频片段与视频主题信息确定与排序后的M个视频片段相匹配的背景音乐；生成处理后的视频。

图19是本申请实施例提供的一种视频编辑方法的示意性流程图。该视频编辑方法700可以由图1所示的电子设备执行；该视频编辑方法700包括步骤S710至步骤S780，下面分别对步骤S710至步骤S780进行详细的描述。

步骤S710、获取N个视频。

步骤S720、通过图文转换模型得到N个视频的文本描述信息。

示例性地，图文转换模型可以包括CLIP模型。

步骤S730、将N个视频的文本描述信息输入至预先训练的视频主题分类模型，得到视频主题信息。

可选地，若步骤S730输出的主题信息为一个主题信息，则无需用户操作；若步骤S730输出为两个或者两个以上的主题信息，则可以在电子设备中显示提示框；提示框中可以包括候选视频主题信息，基于用户在提示框中候选视频主题信息的操作，确定N个视频的视频主题信息。

示例性地，如图11所示，步骤S730中输出两个主题信息，则可以在电子设备中显示显示界面319；显示界面319中包括提示框320，提示框320中包括两个候选视频主题信息分别为风景与旅行，若电子设备检测到用户点击“风景”，则N个视频的视频主题信息为风景；若电子设备检测到用户点击“旅行”，则N个视频的视频主题信息为旅行。

步骤S740、基于N个视频的文本描述信息对N个视频进行排序，得到排序后的N个视频。

需要说明的是，在本申请的实施例中对步骤S730与步骤S740的执行顺序不作任何限定；可以先执行步骤S730再执行步骤S740；或者，可以先执行步骤S740再执行步骤S730；或者，可以同时执行步骤S730与步骤S740。

应理解，对于强故事线的N个视频，基于用户上传N个视频的顺序；或者，基于N个视频的时间戳信息，可能得到的N个视频的排序为错误的排序；例如，N个视频为3个下载视频，基于下载的时间顺序3个视频分别为：视频1：一个人从游乐场回家；视频2：一个人在游乐场玩娱乐设施；视频3：一个人坐车前往游乐场；若基于视频的时间戳信息进行排序则顺序为：视频1、视频2与视频3；但是，一个人出行的一天的正常顺序应该为出门前往目的地，到达目的地，从目的地回家；上述基于时间戳得到的视频排序明显不符合合理的出行的视频逻辑顺序；因此，对于强故事线的视频而言，基于视频的时间戳得到的N个视频排序可能是错误的，导致用户对处理后的视频的观看体验感较差；在本申请的方案中，对于强故事线的视频，可以基于视频的文本描述信息对N个视频进行排序，确定排序后的N个视频符合正常的前因后果，提高用户的观看体验感。

示例性地，在本申请的实施例中，可以基于N个视频的文本描述信息，基于文本描述信息之间的自然语言之间的关联性得到N个视频的排序；

例如，可以将N个视频的文本信息输入至预先训练的排序模型中，排序模型可以为神经网络；预先训练的排序模型可以是基于训练数据集通过反向传播算法训练得到的，训练数据集可以包括样本主题文本与多个样本描述文本的排序，样本主题文本与多个样本描述文本相对应；比如，样本主题文本为“出现”；多个样本描述文本的排序为：样本描述文本1“一个人出门”，样本描述文本2为“一个人在前往目的地的途中”，样本描述文本3为“一个人到底目的地”，样本描述文本4为“一个人在目的地活动”，样本描述文本5为“一个人从目的地离开在前往出发地的途中”，样本描述文本6为“一个人到达出发地”；通过对大量样本训练数据集的学习，当输入多个描述文本时，预先训练的排序模型可以输出多个描述文本的排序。

步骤S750、基于相似度评估模型得到N个视频中的图像与视频主题信息的相似度置信值。

步骤S760、基于N个视频中的图像与视频主题信息的相似度置信值，得到排序后的M个视频片段。

示例性地，基于N个视频中包括的图像特征与视频主题信息的文本特征之间的相似度置信值，可以在N个视频中的选取连续的多帧图像特征，得到一个视频片段。例如，当连续的多帧图像的相似度置信值大于预设阈值的情况下，得到多帧图像组成的一个视频片段。

应理解，由于N个视频为排序后的视频，因此，基于排序后的N个视频中选取的M个视频片段为具有顺序的视频片段，即得排序后的M个视频片段。

例如，N个视频包括3个视频，3个视频的排序为视频2、视频1与视频3；若从视频2中选取视频片段2-1、视频片段2-2，视频片段2-1的时间在视频片段2-2的时间之前；在视频1中选取视频片段1-1；在视频3中选取视频片段3-1、视频片段3-2，视频片段3-1的时间在视频片段3-2的时间之前；则5个视频片段的排序为视频片段2-1、视频片段2-2、视频片段1-1、视频片段3-1、视频片段3-2。

步骤S770、基于排序后的M个视频片段的时长与视频主题信息，在候选音乐库中进行音乐匹配处理，与排序后的M个视频片段相匹配的背景音乐。

应理解，由于M个视频片段为排序后的视频片段，因此，此时需要将排序后的M个视频片段作为基准，选择合适的背景音乐去匹配排序后的M个视频；选择的背景音乐的节奏应该基于排序后的M个视频片段中不同视频片段的图像的风格去匹配。

例如，若排序后的M个视频片段的风格分别为舒缓、欢快的图像内容，则选取的背景音乐应该为前奏为舒缓，中间节奏为欢快的音乐。

步骤S780、基于排序后的M个视频片段与背景音乐，得到处理后的视频。

需要说明的是，除上述描述之外，图19中与图12至图17中相同的部分可以参照图12至图17的相关描述，此处不再赘述。

应理解，在实现方式一中，对于非强故事线的M个视频片段，基于背景音乐的节奏得到排序后的M个视频片段；在实现方式二中，对于强故事线的M个视频片段，基于M个视频片段的前后因果联系得到排序后的M个视频片段；选择节奏匹配排序后的M个视频片段的音乐作为背景音乐。

应理解，上述举例说明是为了帮助本领域技术人员理解本申请实施例，而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明，显然可以进行各种等价的修改或变化，这样的修改或变化也落入本申请实施例的范围内。

上文结合图1至图19详细描述了本申请实施例提供的图像处理方法；下面将结合图20至图21详细描述本申请的装置实施例。应理解，本申请实施例中的装置可以执行前述本申请实施例的各种方法，即以下各种产品的具体工作过程，可以参考前述方法实施例中的对应过程。

图20是本申请实施例提供的一种电子设备的结构示意图。该电子设备800包括显示模块810与处理模块820。

其中，显示模块810用于显示第一界面，所述第一界面中包括视频图标，所述视频图标指示的视频为所述电子设备中存储的视频；处理模块820用于检测到对所述视频图标中N个视频图标的第一操作；响应于所述第一操作，获取N个视频的信息，N为大于1的整数；基于所述N个视频的信息，得到所述N个视频的视频主题；基于所述N个视频中的图像与所述视频主题的相似度，选取所述N个视频中的M个视频片段；基于所述视频主题，得到与所述视频主题相匹配的音乐；基于所述M个视频片段与所述音乐，得到第一视频；显示模块810还用于显示所述第一视频。

可选地，作为一个实施例，处理模块820具体用于：

将所述N个视频与所述视频主题输入至预先训练的相似度匹配模型，得到所述N个视频中的图像与所述视频主题的相似度置信值，其中，所述预先训练的相似度匹配模型中包括图像编码器、文本编码器与第一相似度度量模块，所述图像编码器用于对所述N个视频进行提取图像特征处理，所述文本编码器用于所述视频主题进行提取文本特征处理，所述第一相似度度量模块用于度量所述N个视频中的图像特征与所述视频主题的文本特征之间的相似度，所述相似度置信值用于表示所述N个视频中的图像与所述视频主题相似的概率；

基于所述N个视频中的图像与所述视频主题的相似度置信值，选取所述N个视频中的M个视频片段。

可选地，作为一个实施例，处理模块820具体用于：

对所述M个视频片段进行排序，得到排序后的M个视频片段；

将所述排序后的M个视频片段与所述音乐合成为所述第一视频。

可选地，作为一个实施例，处理模块820具体用于：

基于所述音乐的节奏对所述M个视频片段排序，得到所述排序后的M个视频片段。

可选地，作为一个实施例，处理模块820具体用于：

基于所述M个视频片段中的视频内容对所述M个视频片段进行排序，得到所述排序后的M个视频片段。

可选地，作为一个实施例，处理模块820具体用于：

将所述音乐与所述M个视频片段输入至预先训练的影音节奏匹配模型，得到所述排序后的M个视频片段，所述预先训练的影音节奏匹配模型中包括音频编码器、视频编码器与第一相似度度量模块，所述音频编码器用于对所述音乐进行特征提取得到音频特征，所述视频解码器用于对所述M个视频片段进行特征提取得到视频特征，所述第一相似度度量模块用于度量所述音频特征与所述M个视频片段的相似性。

可选地，作为一个实施例，处理模块820具体用于：

将N个视频的视频内容转换为N个文本描述信息，所述N个文本描述信息与所述N个视频一一对应，所述N个文本描述信息中的一个文本描述信息用于描述所述N个视频中一个视频的图像内容信息；

基于所述N个文本描述信息，得到所述N个视频的主题信息，所述文本描述信息用于将所述N个视频中的视频内容转换为文本信息。

可选地，作为一个实施例，处理模块820具体用于：

将所述N个文本描述信息输入至预先训练的主题分类模型，得到所述N个视频的主题信息，所述预先训练的主题分类模型为用于文本分类的深度神经网络。

可选地，作为一个实施例，在所述预先训练的主题分类模型输出至少两个视频主题时，所述至少两个视频主题与所述N个文本描述信息相对应，显示模块810还用于：

显示第二界面，所述第二界面中包括提示框，所述提示框中包括所述至少两个视频主题的信息；

处理模块820具体用于：

检测到对所述至少两个视频主题的第二操作；

响应于所述第二操作，得到所述N个视频的主题信息。

可选地，作为一个实施例，所述基于所述视频主题，得到与所述视频主题相匹配的音乐，包括：

基于所述M个视频片段的时长与所述视频主题，得到与所述视频主题相匹配的音乐，所述音乐的时长大于或者等于所述M个视频片段的时长。

可选地，作为一个实施例，所述预先训练的相似度匹配模型为Transformer模型。

可选地，作为一个实施例，所述预先训练的相似度匹配模型是通过以下训练方式得到的：

基于第一训练数据集采用对比学习的训练方法对待训练的相似度匹配模型进行训练，得到所述预先训练的相似度匹配模型；其中，所述第一训练数据集中包括正例数据对与负例数据对，所述正例数据对包括第一样本文本描述信息与第一样本视频主题信息，所述第一样本描述信息与所述第一样本视频主题信息相匹配，所述正例数据对包括所述第一样本文本描述信息与第二样本视频主题信息，所述第一样本描述信息与所述第二样本视频主题信息不匹配。

可选地，作为一个实施例，所述预先训练的影音节奏匹配模型为Transformer模型。

可选地，作为一个实施例，所述预先训练的影音节奏匹配模型是通过以下训练方式得到的：

基于第二训练数据集采用对比学习的训练方法对待训练的相似度匹配模型进行训练，得到所述预先训练的相似度匹配模型；其中，所述第二训练数据集中包括正例数据对与负例数据对，所述正例数据对包括第一样本音乐与第一样本视频，所述第一样本音乐的节奏与所述第一样本视频的内容相匹配，所述负例数据对包括所述第一样本音乐与第二样本视频，所述第一样本音乐的节奏与所述第二样本视频的内容不匹配。

需要说明的是，上述电子设备800以功能模块的形式体现。这里的术语“模块”可以通过软件和/或硬件形式实现，对此不作具体限定。

例如，“模块”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路（application specific integrated circuit，ASIC）、电子电路、用于执行一个或多个软件或固件程序的处理器（例如共享处理器、专有处理器或组处理器等）和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。

因此，在本申请的实施例中描述的各示例的单元，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

图21示出了本申请提供的一种电子设备的结构示意图。图21中的虚线表示该单元或该模块为可选的；电子设备900可以用于实现上述方法实施例中描述的视频编辑方法。

电子设备900包括一个或多个处理器901，该一个或多个处理器901可支持电子设备900实现方法实施例中的视频编辑方法。处理器901可以是通用处理器或者专用处理器。例如，处理器901可以是中央处理器（central processing unit，CPU）、数字信号处理器（digital signal processor，DSP）、专用集成电路（application specific integratedcircuit，ASIC）、现场可编程门阵列（field programmable gate array，FPGA）或者其它可编程逻辑器件，如分立门、晶体管逻辑器件或分立硬件组件。

可选地，处理器901可以用于对电子设备900进行控制，执行软件程序，处理软件程序的数据。电子设备900还可以包括通信单元905，用以实现信号的输入（接收）和输出（发送）。

例如，电子设备900可以是芯片，通信单元905可以是该芯片的输入和/或输出电路，或者，通信单元905可以是该芯片的通信接口，该芯片可以作为终端设备或其它电子设备的组成部分。

又例如，电子设备900可以是终端设备，通信单元905可以是该终端设备的收发器，或者，通信单元905可以900中可以包括一个或多个存储器902，其上存有程序904，程序904可被处理器901运行，生成指令903，使得处理器901根据指令903执行上述方法实施例中描述的视频编辑方法。

可选地，存储器902中还可以存储有数据。

可选地，处理器901还可以读取存储器902中存储的数据，该数据可以与程序904存储在相同的存储地址，该数据也可以与程序904存储在不同的存储地址。

可选地，处理器901和存储器902可以单独设置，也可以集成在一起，例如，集成在终端设备的系统级芯片（system on chip，SOC）上。

示例性地，存储器902可以用于存储本申请实施例中提供的视频编辑方法的相关程序904，处理器901可以用于在执行视频编辑方法时调用存储器902中存储的视频编辑方法的相关程序904，执行本申请实施例的视频编辑方法；例如，显示第一界面，第一界面中包括视频图标，视频图标指示的视频为电子设备中存储的视频；检测到对视频图标中N个视频图标的第一操作；响应于第一操作，获取N个视频的信息，N为大于1的整数；基于N个视频的信息，得到N个视频的视频主题；基于N个视频中的图像与视频主题的相似度，选取N个视频中的M个视频片段；基于视频主题，得到与视频主题相匹配的音乐；基于M个视频片段与音乐，得到第一视频；显示第一视频。

可选地，本申请还提供了一种计算机程序产品，该计算机程序产品被处理器901执行时实现本申请中任一方法实施例中的视频编辑方法。

例如，该计算机程序产品可以存储在存储器902中，例如是程序904，程序904经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器901执行的可执行目标文件。

可选地，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现本申请中任一方法实施例的视频编辑方法。该计算机程序可以是高级语言程序，也可以是可执行目标程序。

例如，该计算机可读存储介质例如是存储器902。存储器902可以是易失性存储器或非易失性存储器，或者，存储器902可以同时包括易失性存储器和非易失性存储器。其中，非易失性存储器可以是只读存储器（read-only memory，ROM）、可编程只读存储器（programmable ROM，PROM）、可擦除可编程只读存储器（erasable PROM，EPROM）、电可擦除可编程只读存储器（electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（random access memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（static RAM，SRAM）、动态随机存取存储器（dynamic RAM，DRAM）、同步动态随机存取存储器（synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（double data rate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（synchlinkDRAM，SLDRAM）和直接内存总线随机存取存储器（direct rambus RAM，DR RAM）。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的电子设备的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

另外，本文中的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准总之，以上所述仅为本申请技术方案的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频编辑方法，其特征在于，应用于电子设备，包括：

显示第一界面，所述第一界面中包括视频图标，所述视频图标指示的视频为所述电子设备中存储的视频；

检测到对所述视频图标中N个视频图标的第一操作；

响应于所述第一操作，获取N个视频的信息，N为大于1的整数；

基于所述N个视频的信息，得到所述N个视频的视频主题；

基于所述N个视频中的图像与所述视频主题的相似度，选取所述N个视频中的M个视频片段；

基于所述视频主题，得到与所述视频主题相匹配的音乐；

基于所述M个视频片段与所述音乐，得到第一视频；

显示所述第一视频。

2.如权利要求1所述的视频编辑方法，其特征在于，所述基于所述N个视频中的图像与所述视频主题的相似度，选取所述N个视频中的M个视频片段，包括：

3.如权利要求1或2所述视频编辑方法，其特征在于，所述基于所述M个视频片段与所述音乐，得到第一视频，包括：

对所述M个视频片段进行排序，得到排序后的M个视频片段；

4.如权利要求3所述的视频编辑方法，其特征在于，所述对所述M个视频片段进行排序，得到排序后的M个视频片段，包括：

5.如权利要求3所述的视频编辑方法，其特征在于，所述对所述M个视频片段进行排序，得到排序后的M个视频片段，包括：

6.如权利要求4所述的视频编辑方法，其特征在于，所述基于所述音乐的节奏对所述M个视频片段排序，得到所述排序后的M个视频片段，包括：

7.如权利要求1、2、4至6中任一项所述的视频编辑方法，其特征在于，所述基于所述N个视频的信息，得到所述N个视频的视频主题，包括：

8.如权利要求7所述的视频编辑方法，其特征在于，所述基于所述N个文本描述信息，得到所述N个视频的主题信息，包括：

9.如权利要求8所述的视频编辑方法，其特征在于，在所述预先训练的主题分类模型输出至少两个视频主题时，所述至少两个视频主题与所述N个文本描述信息相对应，还包括：

所述将所述N个文本描述信息输入至预先训练的主题分类模型，得到所述N个视频的主题信息，包括：

检测到对所述至少两个视频主题的第二操作；

响应于所述第二操作，得到所述N个视频的主题信息。

10.如权利要求1、2、4至6、8或9中任一项所述的视频编辑方法，其特征在于，所述基于所述视频主题，得到与所述视频主题相匹配的音乐，包括：

11.如权利要求2所述的视频编辑方法，其特征在于，所述预先训练的相似度匹配模型为变换器Transformer模型。

12.如权利要求11所述的视频编辑方法，其特征在于，所述预先训练的相似度匹配模型是通过以下训练方式得到的：

13.如权利要求6所述的视频编辑方法，其特征在于，所述预先训练的影音节奏匹配模型为Transformer模型。

14.如权利要求13所述的视频编辑方法，其特征在于，所述预先训练的影音节奏匹配模型是通过以下训练方式得到的：

15.一种电子设备，其特征在于，包括：

一个或多个处理器和存储器；

所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行如权利要求1至14中任一项所述的视频编辑方法。

16.一种芯片系统，其特征在于，所述芯片系统应用于电子设备，所述芯片系统包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述电子设备执行如权利要求1至14中任一项所述的视频编辑方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储了计算机程序，当所述计算机程序被处理器执行时，使得处理器执行权利要求1至14中任一项所述的视频编辑方法。