CN114339392B

CN114339392B - 视频剪辑方法、装置、计算机设备及存储介质

Info

Publication number: CN114339392B
Application number: CN202111342772.XA
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2023-09-12
Anticipated expiration: 2041-11-12
Also published as: WO2023082830A1; CN114339392A; US20230298628A1

Abstract

本申请实施例公开了一种视频剪辑方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：对第一视频数据中的音频数据进行音乐识别，得到音频数据中的每个音频帧对应的识别结果；基于每个音频帧对应的识别结果，确定音频数据中的音乐片段；从第一视频数据中，截取与音乐片段的播放时间段相同的视频片段，得到包括音乐片段的第二视频数据。通过对视频数据中的音频数据进行音乐识别，来确定音频数据中的音乐片段，并根据该音乐片段在视频数据中的出现位置，来自动定位视频数据中包括音乐的视频片段，从而将包括音乐的视频片段从视频数据中截取下来，实现了视频剪辑的自动化流程，提高了视频剪辑的效率。

Description

视频剪辑方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种视频剪辑方法、装置、计算机设备及存储介质。

背景技术

在人们的日常生活中，视频剪辑功能的应用越来越广泛，视频剪辑是指从视频数据中截取一部分视频片段，将所截取的视频片段构成新的视频数据。在相关技术中，通常需要人工截取视频数据中的视频片段，会耗费较多时间，因此视频剪辑的效率比较低。

发明内容

本申请实施例提供了一种视频剪辑方法、装置、计算机设备及存储介质，能够提高视频剪辑的效率。所述技术方案如下：

一方面，提供了一种视频剪辑方法，所述方法包括：

对第一视频数据中的音频数据进行音乐识别，得到所述音频数据中的每个音频帧对应的识别结果，所述识别结果表示所述音频帧是否属于音乐音频帧；

基于每个所述音频帧对应的识别结果，确定所述音频数据中的音乐片段，所述音乐片段包括多个音乐音频帧；

从所述第一视频数据中，截取与所述音乐片段的播放时间段相同的视频片段，得到包括所述音乐片段的第二视频数据。

可选地，所述特征识别子模型包括特征变换网络和分类网络，所述调用所述特征识别子模型，基于多个所述音频帧的音频特征进行特征识别，得到每个所述音频帧对应的识别结果，包括：

调用所述特征变换网络，基于多个所述音频帧的音频特征进行特征变换，得到每个所述音频帧的关联特征，所述音频帧的关联特征表示所述音频帧与前序音频帧和后序音频帧之间的关联关系；

调用所述分类网络，基于每个所述音频帧的关联特征进行分类，得到每个所述音频帧对应的识别结果。

可选地，所述音乐识别模型的训练过程，包括：

获取样本音频数据以及所述样本音频数据中的每个样本音频帧对应的样本识别结果，所述样本识别结果表示所述样本音频帧是否属于音乐音频帧；

调用所述频谱提取子模型，提取每个所述样本音频帧的样本频谱信息；

调用所述特征提取子模型，分别基于每个所述样本音频帧的样本频谱信息进行特征提取，得到每个所述样本音频帧的样本音频特征；

调用所述特征识别子模型，基于多个所述样本音频帧的样本音频特征进行特征识别，得到每个所述样本音频帧对应的预测识别结果；

基于每个所述样本音频帧对应的所述预测识别结果与所述样本识别结果，训练所述音乐识别模型。

可选地，所述音频帧对应的识别结果为分类数值，所述分类数值表示所述音频帧属于音乐音频帧的可能性；所述基于每个所述音频帧对应的识别结果，确定所述音频数据中的音乐片段，包括：

在所述音频帧的分类数值大于分类阈值的情况下，将所述音频帧确定为音乐音频帧；

将所述音频数据中连续的多个音乐音频帧构成所述音乐片段。

另一方面，提供了一种视频剪辑方法，所述方法包括：

显示第一视频数据的剪辑选项；

响应于对所述剪辑选项的触发操作，截取所述第一视频数据中与音乐片段的播放时间段相同的视频片段，得到包括所述音乐片段的第二视频数据；

响应于对所述第二视频数据的发布操作，发布所述第二视频数据。

另一方面，提供了一种视频剪辑装置，所述装置包括：

识别模块，用于对第一视频数据中的音频数据进行音乐识别，得到所述音频数据中的每个音频帧对应的识别结果，所述识别结果表示所述音频帧是否属于音乐音频帧；

确定模块，用于基于每个所述音频帧对应的识别结果，确定所述音频数据中的音乐片段，得到包括所述音乐片段的第二视频数据；

截取模块，用于从所述第一视频数据中，截取与所述音乐片段的播放时间段相同的视频片段，得到包括所述音乐片段的第二视频数据。

可选地，所述识别模块，包括：

频谱提取单元，用于提取每个所述音频帧的频谱信息；

特征提取单元，用于分别基于每个所述音频帧的频谱信息进行特征提取，得到每个所述音频帧的音频特征；

特征识别单元，用于基于多个所述音频帧的音频特征进行特征识别，得到每个所述音频帧对应的识别结果。

可选地，所述频谱提取单元，用于：

对每个所述音频帧进行频域变换，得到每个所述音频帧的能量谱信息；

对每个所述音频帧的能量谱信息进行滤波，得到每个所述音频帧的频谱信息。

可选地，所述特征提取单元，用于：

将第一音频帧的第一数量个前序音频帧、所述第一音频帧以及所述第一音频帧的第二数量个后序音频帧构成帧集合，所述前序音频帧为位于所述第一音频帧之前的音频帧，所述后序音频帧为位于所述第一音频帧之后的音频帧；

对所述帧集合中的多个音频帧的频谱信息进行特征提取，将提取得到的音频特征确定为所述第一音频帧的音频特征；

其中，所述第一音频帧为所述音频数据中的任一音频帧。

可选地，所述装置还包括：

填充模块，用于在所述第一音频帧的前序音频帧的数量小于所述第一数量的情况下，在所述第一音频帧之前填充至少一个音频帧，以使所述第一音频帧的前序音频帧的数量等于所述第一数量；

所述填充模块，还用于在所述第一音频帧的后序音频帧的数量小于所述第二数量的情况下，在所述第一音频帧之后填充至少一个音频帧，以使所述第一音频帧的后序音频帧的数量等于所述第二数量。

可选地，所述特征识别单元，用于：

基于多个所述音频帧的音频特征进行特征变换，得到每个所述音频帧的关联特征，所述音频帧的关联特征表示所述音频帧与前序音频帧和后序音频帧之间的关联关系；

基于每个所述音频帧的关联特征进行分类，得到每个所述音频帧对应的识别结果。

可选地，音乐识别模型包括频谱提取子模型、特征提取子模型和特征识别子模型，所述识别模块，包括：

频谱提取单元，用于调用所述频谱提取子模型，提取每个所述音频帧的频谱信息；

特征提取单元，用于调用所述特征提取子模型，分别基于每个所述音频帧的频谱信息进行特征提取，得到每个所述音频帧的音频特征；

特征识别单元，用于调用所述特征识别子模型，基于多个所述音频帧的音频特征进行特征识别，得到每个所述音频帧对应的识别结果。

可选地，所述特征识别子模型包括特征变换网络和分类网络，所述特征识别单元，用于：

可选地，所述装置还包括模型训练模块，用于：

可选地，所述音频帧对应的识别结果为分类数值，所述分类数值表示所述音频帧属于音乐音频帧的可能性；所述确定模块，包括：

第一确定单元，用于在所述音频帧的分类数值大于分类阈值的情况下，将所述音频帧确定为音乐音频帧；

第一构成单元，用于将所述音频数据中连续的多个音乐音频帧构成所述音乐片段。

可选地，所述确定模块，包括：

第二确定单元，用于基于每个所述音频帧对应的识别结果，确定所述音频数据中的音乐音频帧和非音乐音频帧；

第二构成单元，用于将所述音频数据中连续的多个音乐音频帧构成所述音乐片段，将连续的多个非音乐音频帧构成非音乐片段；

校正单元，用于根据所述音乐片段的播放信息或所述非音乐片段的播放信息中的至少一项，校正所述音频数据中的所述音乐片段和所述非音乐片段。

可选地，所述播放信息包括播放时长，所述校正单元，用于在第一音乐片段与第二音乐片段之间存在第一非音乐片段，且所述第一非音乐片段的播放时长小于第一时长的情况下，将所述第一音乐片段、所述第二音乐片段与所述第一非音乐片段合并为一个音乐片段。

可选地，所述播放信息包括播放时长，所述校正单元，用于在第二非音乐片段与第三非音乐片段之间存在第三音乐片段，且所述第三音乐片段的播放时长小于第二时长的情况下，将所述第二非音乐片段、所述第三非音乐片段与所述第三音乐片段合并为一个非音乐片段。

可选地，所述播放信息包括播放时长，所述校正单元，用于在第四音乐片段的播放时长小于第三时长的情况下，将所述第四音乐片段校正为所述非音乐片段。

可选地，所述播放信息包括播放时间段，所述校正单元，用于：

在第五音乐片段的播放时间段位于所述音频数据的起始时间段内的情况下，将所述第五音乐片段校正为所述非音乐片段；或者，

在所述第五音乐片段的播放时间段位于所述音频数据的结束时间段内的情况下，将所述第五音乐片段校正为所述非音乐片段。

另一方面，提供了一种视频剪辑装置，所述装置包括：

第一显示模块，用于显示第一视频数据的剪辑选项；

截取模块，用于响应于对所述剪辑选项的触发操作，截取所述第一视频数据中与音乐片段的播放时间段相同的视频片段，得到包括所述音乐片段的第二视频数据；

发布模块，用于响应于对所述第二视频数据的发布操作，发布所述第二视频数据。

可选地，所述截取模块，包括：

剪辑请求单元，用于响应于对所述剪辑选项的触发操作，向服务器发送对所述第一视频数据的剪辑请求，所述服务器用于响应于所述剪辑请求，截取所述第一视频数据中与所述音乐片段的播放时间段相同的视频片段，得到所述第二视频数据，返回剪辑完成通知；

所述发布模块，包括：

发布选项显示单元，用于响应于所述服务器发送的剪辑完成通知，显示所述第二视频数据对应的发布选项；

发布请求单元，用于响应于对所述发布选项的确认操作，向所述服务器发送发布请求，所述服务器用于响应于所述发布请求，发布所述第二视频数据。

可选地，所述剪辑完成通知携带所述第二视频数据，所述装置还包括：

第二显示模块，用于响应于所述服务器发送的剪辑完成通知，获取所述剪辑完成通知携带的所述第二视频数据，显示所述第二视频数据。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的视频剪辑方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的视频剪辑方法所执行的操作。

另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码，处理器执行所述计算机程序代码，使得所述计算机设备实现如上述方面所述的视频剪辑方法所执行的操作。

本申请实施例提供的方法、装置、计算机设备及存储介质，通过对视频数据中的音频数据进行音乐识别，来确定音频数据中的音乐片段，并根据该音乐片段在视频数据中的出现位置，来自动定位视频数据中包括音乐的视频片段，从而将包括音乐的视频片段从视频数据中截取下来，实现了视频剪辑的自动化流程，无需手动对视频进行剪辑，提高了视频剪辑的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图。

图2是本申请实施例提供的一种视频剪辑方法的流程图。

图3是本申请实施例提供的另一种视频剪辑方法的流程图。

图4是本申请实施例提供的另一种视频剪辑方法的流程图。

图5是本申请实施例提供的一种能量谱信息的示意图。

图6是本申请实施例提供的一种梅尔滤波器的示意图。

图7是本申请实施例提供的一种能量谱信息提取方法的流程图。

图8是本申请实施例提供的一种分类数值的示意图。

图9是本申请实施例提供的一种视频片段截取方法的流程图。

图10是本申请实施例提供的一种特征提取子模型的结构示意图。

图11是本申请实施例提供的一种特征识别子模型的结构示意图。

图12是本申请实施例提供的另一种视频剪辑方法的流程图。

图13是本申请实施例提供的一种音乐识别模型的训练方法的流程图。

图14是本申请实施例提供的另一种视频剪辑方法的流程图。

图15是本申请实施例提供的另一种视频剪辑方法的流程图。

图16是本申请实施例提供的一种视频管理界面的示意图。

图17是本申请实施例提供的一种视频剪辑装置的结构示意图。

图18是本申请实施例提供的另一种视频剪辑装置的结构示意图。

图19是本申请实施例提供的另一种视频剪辑装置的结构示意图。

图20是本申请实施例提供的另一种视频剪辑装置的结构示意图。

图21是本申请实施例提供的一种终端的结构示意图。

图22是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一音乐片段称为第二音乐片段，且类似地，可将第二音乐片段称为第一音乐片段。

其中，至少一个是指一个或者一个以上，例如，至少一个音乐片段可以是一个音乐片段、两个音乐片段、三个音乐片段等任一大于等于一的整数个音乐片段。多个是指两个或者两个以上，例如，多个音乐片段可以是两个音乐片段、三个音乐片段等任一大于等于二的整数个音乐片段。每个是指至少一个中的每一个，例如，每个音乐片段是指多个音乐片段中的每一个音乐片段，若多个音乐片段为3个音乐片段，则每个音乐片段是指3个音乐片段中的每一个音乐片段。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

以下将基于人工智能技术，对本申请实施例提供的视频剪辑方法进行说明。

为了便于理解本申请实施例，先对本申请实施例涉及到的概念进行解释：

(1)BGM(Back Ground Music，背景音乐)：又称为伴乐或者配乐，通常是指在电视剧、电影、动画、电子游戏、网站中用于调节气氛的音乐，插入于视频之中，能够增强情感的表达，达到让观众身临其境的效果。

(2)Mel频率(梅尔频率)：一种基于人耳对等距的音高变化的感官判断而定的非线性频率刻度，是在进行信号处理时能够迎合人耳的听觉感受阈变化所设定的频率刻度，在音频处理领域中的音频特征可以通过Mel频率来得到。

(3)Audioset数据集(音频数据集)：该Audioset数据集是由200万个具有标签的10秒视频音轨组成的数据集，其标签来自600多个音频事件的本体，该Audioset数据集用于执行关于音频事件检测的评估任务。

(4)CNN(Convolutional Neural Network，卷积神经网络)：卷积神经网络是一种前馈神经网络，由一个或多个卷积层以及全连接层组成，同时也包括关联权重和池化层。

(5)ffmpeg(一种开源计算机程序)：ffmpeg是一种用来记录、转换以及流化音频或者视频的开源计算机程序，提供了录制、转换以及流化音视频的完整解决方案，包括了非常先进的音频/视频编解码库。

图1是本申请实施例提供的一种实施环境的示意图，参见图1，该实施环境包括：服务器101和至少一个终端102(图1中以3个为例)。服务器101和终端102可以通过有线或无线通信方式进行直接或间接地连接。

服务器101用于识别第一视频数据中的音乐片段，截取第一视频数据中的该音乐片段，得到包括该音乐片段的第二视频数据，将第二视频数据发布于该至少一个终端102中。

在一种可能实现方式中，服务器101可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。在一种可能实现方式中，终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视机、车载终端、MP3(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)播放器以及MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器等。

在一种可能实现方式中，终端102上安装由服务器101提供服务的目标客户端。可选地，目标客户端为终端102操作系统中的目标客户端，或者为第三方提供的目标客户端。该目标客户端能够播放视频数据。可选地，该目标客户端还能够具有其他功能，例如，点评功能、购物功能和游戏功能等。可选地，该目标客户端为视频播放客户端、内容分享客户端、游戏客户端或者其他客户端，本申请实施例对此不做限制。

需要说明的是，本申请实施例仅以由服务器对视频数据进行剪辑为例来说明，在另一实施例中，还可以由终端对视频数据进行剪辑。例如，终端识别第一视频数据中的音乐片段，截取第一视频数据中的该音乐片段，得到包括该音乐片段的第二视频数据，将第二视频数据发送给服务器，由服务器发布该第二视频数据。

本申请实施例提供的视频剪辑方法可以应用于多种场景下。

例如，应用于对电视剧进行宣传的场景下。

在电视剧开播之前，为了对电视剧进行宣传和推广，可以采用本申请实施例提供的方法，从该电视剧的视频数据中，截取包括BGM(Back Ground Music，背景音乐)的视频片段，由于包括BGM的视频片段是电视剧中比较精彩的片段，因此将截取的视频片段作为宣传片，发布在视频播放平台上，来激发用户对该电视剧的兴趣，起到宣传和推广的作用。

例如，还可以应用于短视频分享的场景下。

用户在观看电影时，想要分享该电影中的精彩片段，则采用本申请实施例提供的方法，从该电影的视频数据中，截取包括BGM的视频片段，该视频片段是电影中比较精彩的片段，因此将截取的该视频片段作为短视频，分享在短视频平台上。

图2是本申请实施例提供的一种视频剪辑方法的流程图。本申请实施例的执行主体为计算机设备，该计算机设备可以是图1所示的终端或者服务器，参见图2，该方法包括：

201、计算机设备对第一视频数据中的音频数据进行音乐识别，得到音频数据中的每个音频帧对应的识别结果。

本申请实施例中的音乐识别是指识别音频数据中的音频帧是否属于音乐音频帧，音乐音频帧是指属于音乐的音频帧，音乐包括古典音乐、流行音乐以及民间音乐等，音乐可以为包括填词的音乐和不包括填词的音乐。

计算机设备获取待剪辑的第一视频数据，该第一视频数据可以为电影、动画片、电视剧或者综艺节目等任意类型的视频数据，该第一视频数据中包括音频数据，音频数据中包括多个音频帧，计算机设备对该音频数据中的多个音频帧进行音乐识别，能够得到每个音频帧对应的识别结果，音频帧对应的识别结果用于表示音频帧是否属于音乐音频帧。

202、计算机设备基于每个音频帧对应的识别结果，确定音频数据中的音乐片段。

音乐片段是指包括连续的多个音乐音频帧的音频片段，计算机设备获取到每个音频帧对应的识别结果后，基于该识别结果，能够确定音频数据中的哪些音频帧属于音乐音频帧，从而确定该音频数据中的音乐片段，该音乐片段也即是视频数据中的BGM。

203、计算机设备从第一视频数据中，截取与音乐片段的播放时间段相同的视频片段，得到包括音乐片段的第二视频数据。

由于第一视频数据中所包括的音频数据的播放时长与该第一视频数据的播放时长是相等的，且第一视频数据的起始播放时间点与音频数据的起始播放时间点相同，第一视频数据的终止播放时间点与音频数据的终止播放时间点也相同，因此第一视频数据中的播放时间点与音频数据中的播放时间点一一对应，音乐片段在音频数据中的播放时间段与该音乐片段在第一视频数据中的播放时间段是相同的。

则计算机设备确定该音乐片段在音频数据中的播放时间段，从该第一视频数据中，截取与该播放时间段相同的视频片段，得到包括音乐片段的第二视频数据，也即是该第二视频数据中包括BGM。

本申请实施例提供的方法，通过对视频数据中的音频数据进行音乐识别，来确定音频数据中的音乐片段，并根据该音乐片段在视频数据中的出现位置，来自动定位视频数据中包括音乐的视频片段，从而将包括音乐的视频片段从视频数据中截取下来，实现了视频剪辑的自动化流程，无需手动对视频进行剪辑，提高了视频剪辑的效率。

图3是本申请实施例提供的一种视频剪辑方法的流程图。本申请实施例的执行主体为计算机设备，该计算机设备可以是图1所示的终端，参见图3，该方法包括：

301、计算机设备显示第一视频数据的剪辑选项。

第一视频数据为待剪辑的视频数据，第一视频数据的剪辑选项用于对该第一视频数据进行剪辑。

302、计算机设备响应于对剪辑选项的触发操作，截取第一视频数据中与音乐片段的播放时间段相同的视频片段，得到包括音乐片段的第二视频数据。

当视频数据的管理人员想要对第一视频数据进行剪辑时，执行对该剪辑选项的触发操作，例如该触发操作为点击操作、滑动操作或者拖拽操作等。计算机设备响应于对该剪辑选项的触发操作，则确定该第一视频数据中的音乐片段，该音乐片段也即是视频数据中的BGM。计算机设备截取该第一视频数据中与音乐片段的播放时间段相同的视频片段，得到第二视频数据，该第二视频数据包括该音乐片段，因此得到了包括BGM的第二视频数据。

在一种可能实现方式中，计算机设备采用上述图2的实施例提供的视频剪辑方法，从第一视频数据中截取包括音乐片段的视频片段，将该视频片段确定为第二视频数据。

303、计算机设备响应于对第二视频数据的发布操作，发布第二视频数据。

当视频数据的管理人员想要发布该第二视频数据时，则从计算机设备上执行对该第二视频数据的发布操作，计算机设备响应于对该第二视频数据的发布操作，发布该第二视频数据，从而将该第二视频数据推广出去，以使更多用户能够观看该第二视频数据。

本申请实施例提供的方法，仅需执行对第一视频数据的剪辑选项的触发操作，计算机设备即可自动从第一视频数据中截取出包括音乐片段的第二视频数据，无需手动执行复杂的剪辑操作，提高了视频剪辑的效率。并且，由于自动剪辑出来的第二视频数据包括音乐片段，该第二视频数据对用户的吸引力更大，因此将该第二视频数据发布出去，有利于提高视频数据的浏览量。

图4是本申请实施例提供的一种视频剪辑方法的流程图。本申请实施例的执行主体为计算机设备，该计算机设备可以是图1所示的终端或者服务器，参见图4，该方法包括：

401、计算机设备提取第一视频数据中的音频数据中的每个音频帧的频谱信息。

第一视频数据中包括音频数据，音频数据中包括多个音频帧，音频帧的频谱信息用于表示音频帧在频域的特征。该频谱信息可以为任意类型的频谱信息，例如该频谱信息为梅尔谱信息或者梅尔倒谱信息等。

在一种可能实现方式中，计算机设备对第一视频数据进行音频提取，得到第一视频数据中的音频数据。例如，计算机设备利用ffmpeg来提取第一视频数据中的音频数据。在一种可能实现方式中，计算机设备得到音频数据后，对该音频数据进行分帧和加窗，得到该音频数据中的多个音频帧，可选地，该音频数据中的音频帧为毫秒级别的音频帧。

在另一种可能实现方式中，计算机设备对每个音频帧进行频域变换，得到每个音频帧的能量谱信息，对每个音频帧的能量谱信息进行滤波，得到每个音频帧的频谱信息。

其中，音频帧的能量谱信息用于表示单位频带内的信号能量。可选地，计算机设备对音频帧进行傅里叶变换，得到该音频帧的能量谱信息。例如，该傅里叶变换为STFT(Short-Time Fourier Transform，短时傅里叶变换)，该能量谱信息为STFT能量谱信息，该STFT能量谱信息包括STFT幅度信息以及STFT相位信息，音频帧的STFT能量谱信息如图5所示。

可选地，计算机设备采用梅尔滤波器，对音频帧的能量谱信息进行梅尔滤波，得到音频帧的梅尔谱信息，并求取音频帧的梅尔谱信息的对数，得到音频帧的梅尔倒谱信息，将该梅尔倒谱信息确定为该音频帧对应的频谱信息，梅尔滤波器如图6所示，其中，横坐标表示滤波频率，纵坐标表示滤波幅度。

图7是本申请实施例提供的一种能量谱信息提取方法的流程图，如图7所述，包括以下步骤：701、计算机设备对音频数据进行分帧，得到音频数据中的多个音频帧；702、计算机设备对分帧所得到的多个音频帧进行加窗，得到加窗后的多个音频帧，该多个音频帧中相邻两个音频帧之间存在重叠部分；703、计算机设备对获取到的多个音频帧进行傅里叶变换，得到每个音频帧的频谱信息，该频谱信息包括STFT幅度信息和STFT相位信息。

402、计算机设备分别基于每个音频帧的频谱信息进行特征提取，得到每个音频帧的音频特征。

计算机设备获取到每个音频帧的频谱信息后，基于该多个音频帧的频谱信息，分别提取每个音频帧的音频特征。可选地，该音频特征为特征向量、特征矩阵或者特征图等，本申请实施例对此不做限定。

下面以第一音频帧为例来说明计算机设备提取第一音频帧的音频特征的方法，该第一音频帧为音频数据中的任一音频帧。

在一种可能实现方式中，计算机设备将第一音频帧的第一数量个前序音频帧、第一音频帧以及第一音频帧的第二数量个后序音频帧构成帧集合，对帧集合中的多个音频帧的频谱信息进行特征提取，将提取得到的音频特征确定为第一音频帧的音频特征。

其中，第一音频帧的前序音频帧为位于第一音频帧之前的音频帧，第一音频帧的后序音频帧为位于第一音频帧之后的音频帧。第一数量个前序音频帧即为该音频数据中位于该第一音频帧之前的第一数量个音频帧，第二数量个后序音频帧即为该音频数据中位于该第一音频帧之后的第二数量个音频帧。可选地，该第一数量和第二数量为计算机设备预先设置的，第一数量和第二数量可以相同也可以不同，例如第一音频帧对应的帧集合中音频帧的数量预先设置为96，则该第一数量可以为47，该第二数量可以为48。

本申请实施例中，在提取音频帧的音频特征时，不仅考虑该音频帧本身的频谱信息，还会考虑该音频帧的前序音频帧以及后续音频帧的频谱信息，因此提取到的音频特征中包括了音频帧之间的帧间关系，音频特征的信息量更丰富，后续利用该音频特征进行特征识别的准确率更高。

可选地，计算机设备确定第一音频帧对应的帧集合后，将该帧集合中的多个音频帧的频谱信息进行组合，得到融合频谱信息，对该融合频谱信息进行特征提取，得到音频特征，将该音频特征确定为第一音频帧的音频特征。例如，每个音频帧的频谱信息为64阶的一维频谱信息，帧集合包括96个音频帧，则计算机设备将96个音频帧的频谱信息组合成一个96*64的二维融合频谱信息。

可选地，计算机设备在第一音频帧的前序音频帧的数量小于第一数量的情况下，在第一音频帧之前填充至少一个音频帧，以使第一音频帧的前序音频帧的数量等于第一数量。可选地，计算机设备在第一音频帧的后序音频帧的数量小于第二数量的情况下，在第一音频帧之后填充至少一个音频帧，以使第一音频帧的后续音频帧的数量等于第二数量。

如果第一音频帧的前序音频帧的数量不够，则计算机设备在第一音频帧的第一个前序音频帧的前面，填充至少一个音频帧，也即是在音频数据的第一个音频帧的前面，填充至少一个音频帧。例如，第一音频帧的前序音频帧的总数量为第三数量，且第三数量小于第一数量，则计算机设备将第一数量与第三数量之间的差值确定为第四数量，在第一个前序音频帧的前面填充第四数量个音频帧。如果第一音频帧的后序音频帧的数量不够，则计算机设备在第一音频帧的最后一个前序音频帧的后面，填充至少一个音频帧，也即是在音频数据的最后一个音频帧的后面，填充至少一个音频帧。

可选地，计算机设备获取至少一个空白音频帧，将该至少一个空白音频帧确定为要填充的音频帧。可选地，计算机设备复制至少一个第一音频帧，将该至少一个第一音频帧确定为要填充的音频帧。

在一种可能实现方式中，计算机设备对第一音频帧的频谱信息进行特征提取，得到该第一音频帧的音频特征。

403、计算机设备基于多个音频帧的音频特征进行特征识别，得到每个音频帧对应的识别结果。

计算机设备确定每个音频帧的音频特征后，基于多个音频帧的音频特征，对音频数据中的每个音频帧进行特征识别，得到每个音频帧对应的识别结果，该识别结果表示音频帧是否属于音乐音频帧。

在一种可能实现方式中，计算机设备基于多个音频帧的音频特征进行特征变换，得到每个音频帧的关联特征，基于每个音频帧的关联特征进行分类，得到每个音频帧对应的识别结果。

其中，音频帧的关联特征表示音频帧与前序音频帧和后序音频帧之间的关联关系，该关联关系又称为帧间关系。由于音频数据中相邻的两个音频帧之间存在一定的关联关系，例如在某一个音频帧属于音乐音频帧的情况下，与该音频帧相邻的前序音频帧与后序音频帧属于音乐音频帧的可能性会比较大，因此计算机设备基于音频帧的关联特征来对音频帧进行分类，得到音频帧对应的识别结果。

可选地，计算机设备对每个音频帧进行二分类，音频帧对应的识别结果包括第一数值和第二数值，第一数值表示音频帧属于音乐音频帧，第二数值表示音频帧属于非音乐音频帧。可选地，音频帧对应的识别结果为分类数值，该分类数值表示音频帧属于音乐音频帧的可能性。

需要说明的是，计算机设备仅以执行上述步骤401-步骤403为例，说明对第一视频数据中的音频数据进行音乐识别，得到音频数据中的每个音频帧对应的识别结果的过程。除此之外，计算机设备还可以采用其他方式对音频数据进行音乐识别，得到每个音频帧对应的识别结果，例如计算机设备调用音乐识别模型对音频数据进行音乐识别，得到每个音频帧对应的识别结果，调用音乐识别模型的过程详见下述图13的实施例，在此暂不做说明。

404、计算机设备基于每个音频帧对应的识别结果，确定音频数据中的音乐音频帧和非音乐音频帧。

由于音频帧对应的识别结果能够表示音频帧是否属于音乐音频帧，因此计算机设备基于每个音频帧对应的识别结果，能够确定音频数据中哪些音频帧属于音乐音频帧，哪些音频帧属于非音乐音频帧。本申请实施例中，以帧为单位，分别识别音频数据中的每一个音乐视频帧以及非音乐视频帧，将音乐识别的粒度定位到帧级别，提高了音乐识别的精度。

在一种可能实现方式中，音频帧对应的识别结果为分类数值，该分类数值表示音频帧属于音乐音频帧的可能性。计算机设备在音频帧的分类数值大于分类阈值的情况下，将该音频帧确定为音乐音频帧，在音频帧的分类数值不大于分类阈值的情况下，将该音频帧确定为非音乐音频帧。可选地，该分类阈值为计算机设备按照历史数据预先设置的。

图8是本申请实施例提供的一种分类数值的示意图，如图8所示，横坐标表示不同的音频帧，纵坐标表示音频帧对应的分类数值，音频帧对应的分类数值为0到1之间的数值，分类阈值为0.4，则计算机设备将分类数值大于0.4的音频帧确定为音乐音频帧，将分类数值不大于0.4的音频帧确定为非音乐音频帧。

405、计算机设备将音频数据中连续的多个音乐音频帧构成音乐片段，将连续的多个非音乐音频帧构成非音乐片段。

音乐片段是指包括连续的多个音乐音频帧的音频片段，非音乐片段是指包括连续的多个非音乐音频帧的音频片段，因此计算机设备可以在音频数据中确定连续的多个音乐音频帧，将该多个音乐音频帧构成一个音乐片段，在音频数据中存在多组不同的连续的多个音乐音频帧的情况下，将每组音乐音频帧构成一个音乐片段，从而得到多个音乐片段。计算机设备可以在音频数据中确定连续的多个非音乐音频帧，将该多个非音乐音频帧构成一个非音乐片段，在音频数据中存在多组不同的连续的多个非音乐音频帧的情况下，将每组非音乐音频帧构成一个非音乐片段，从而得到多个非音乐片段。

406、计算机设备根据音乐片段的播放信息或非音乐片段的播放信息中的至少一项，校正音频数据中的音乐片段和非音乐片段。

计算机设备确定音频数据中的音乐片段以及非音乐片段后，获取该音乐片段的播放信息或者非音乐片段的播放信息中的至少一项，并根据获取的播放信息，校正音频数据中的音乐片段和非音乐片段，例如将音乐片段重新校正为非音乐片段，或者将非音乐片段重新校正为音乐片段，或者将连续的多个音乐片段重新合并为一个音乐片段，或者将连续的多个非音乐片段重新合并为一个非音乐片段等。其中，播放信息用于表示音频片段的播放情况，例如播放信息包括播放时长、播放时间点或者播放时间段等。

本申请实施例中，在确定音频数据中的音乐片段和非音乐片段后，还会基于播放信息，来校正音频数据中的音乐片段和非音乐片段，校正后的音乐片段和非音乐片段考虑了在音频数据中的播放情况，因此提高了确定的音乐片段和非音乐片段的准确性。

在一种可能实现方式中，计算机设备校正音频数据中的音乐片段和非音乐片段，包括以下四种方式中的至少一种。

第一种方式：播放信息包括播放时长，计算机设备在第一音乐片段与第二音乐片段之间存在第一非音乐片段，且第一非音乐片段的播放时长小于第一时长的情况下，将第一音乐片段、第二音乐片段与第一非音乐片段合并为一个音乐片段。其中，该第一音乐片段、第二音乐片段以及第一非音乐片段均为该音频数据中的音频片段。

计算机设备确定音频数据中每个音乐片段与每个非音乐片段的播放时长，如果两个音乐片段之间存在一个非音乐片段，且该非音乐片段的播放时长较小，则认为该非音乐片段识别有误，或者该非音乐片段虽然不属于音乐，但是穿插在一个完成音乐之中了，因此计算机设备将这两个音乐片段和该非音乐片段合并成一个新的音乐片段。

例如，第一音乐片段和第二音乐片段属于同一个音乐，该第一音乐片段与第二音乐片段之间的第一非音乐片段为穿插在该音乐之中的独白，因此将第一音乐片段、第二音乐片段和第一非音乐片段合并为一个音乐片段，有利于避免同一个音乐被拆分成两部分的情况，进一步提高了音乐识别的准确率。

第二种方式：播放信息包括播放时长，计算机设备在第二非音乐片段与第三非音乐片段之间存在第三音乐片段，且第三音乐片段的播放时长小于第二时长的情况下，将第二非音乐片段、第三非音乐片段与第三音乐片段合并为一个非音乐片段。其中，该第二非音乐片段、第三非音乐片段以及第三音乐片段均为该音频数据中的音频片段。

计算机设备确定音频数据中每个音乐片段与每个非音乐片段的播放时长，如果两个非音乐片段之间存在一个音乐片段，且该非音乐片段的播放时长较小，则认为该音乐片段识别有误，或者该音乐片段不是一个完整的音乐，因此计算机设备将这两个非音乐片段和该音乐片段合并成一个新的非音乐片段。

例如，第二非音乐片段和第三非音乐片段均属于人物对话，该第二非音乐片段和第三非音乐片段之间的第三音乐片段为穿插在人物对话之中的一个较短的音效，如果保留第三音乐片段，则后续根据第三音乐片段截取所得到的视频片段中仅包括一个音效，而不包括完整的音乐，因此将第二非音乐片段、第三非音乐片段以及第三音乐片段合并为一个音乐片段，进一步提高了音乐识别的准确率，有利于避免后续截取到不包括音乐的视频片段。

第三种方式：播放信息包括播放时长，计算机设备在第四音乐片段的播放时长小于第三时长的情况下，将第四音乐片段校正为非音乐片段。其中，该第一音乐片段、第二音乐片段以及第一非音乐片段均为该音频数据中的音频片段。

计算机设备确定音频数据中每个音乐片段与每个非音乐片段的播放时长，如果音乐片段的播放时长较小，则认为该音乐片段识别有误，或者该音乐片段不是一个完整的音乐，因此将该音乐片段校正为非音乐片段。通过将播放时长较小的音乐片段过滤掉，能够避免后续截取的视频片段包括的音乐不够丰富，有利于提高截取的视频片段的质量。

第四种方式：播放信息包括播放时间段，计算机设备在第五音乐片段的播放时间段位于音频数据的起始时间段内的情况下，将第五音乐片段校正为非音乐片段；或者，在第五音乐片段的播放时间段位于音频数据的结束时间段内的情况下，将第五音乐片段校正为非音乐片段。其中，该第一音乐片段、第二音乐片段以及第一非音乐片段均为该音频数据中的音频片段。

音频数据的起始时间段是指音频数据的起始播放时间点之后的第四时长内的时间段，结束时间段是指音频数据的终止播放时间点之前的第五时长内的时间段。例如该第四时长为5分钟，该第五时长为10分钟等。

本申请实施例中识别音乐片段是为了将第一视频数据中包括该音乐片段的视频片段截取下来，作为第一视频数据中的精彩片段。但是考虑到在第一视频数据为影视剧的情况下，第一视频数据的起始时间段的内容为影视剧的片头，终止时间段的内容为影视剧的片尾，或者第一视频数据对应的起始时间段和终止时间段中内容为广告，对用户的吸引力不够大，因此会提前将位于起始时间段和终止时间段的音乐片段校正为非音乐片段，来对音乐片段进行过滤，有利于保证后续截取的视频片段的质量。

需要说明的是，本申请实施例仅以执行上述步骤404-步骤406为例，说明基于每个音频帧对应的识别结果，确定音频数据中的音乐片段的过程。除此之外，计算机设备还可以采用其他方式确定音乐片段，例如计算机设备直接基于每个音频帧对应的识别结果，确定音频数据中的音乐音频帧，将连续的多个音乐音频帧构成音乐片段，而不对音频数据中的音乐片段和非音乐片段进行校正。

在一种可能实现方式中，音频帧对应的识别结果为分类数值，分类数值表示音频帧属于音乐音频帧的可能性。计算机设备在音频帧的分类数值大于分类阈值的情况下，将音频帧确定为音乐音频帧，将音频数据中连续的多个音乐音频帧构成音乐片段。

407、计算机设备从第一视频数据中，截取与音乐片段的播放时间段相同的视频片段，得到包括音乐片段的第二视频数据。

由于第一视频数据中的播放时间点与音频数据中的播放时间点是一一对应的，因此音乐片段在音频数据中的播放时间段与该音乐片段在第一视频数据中的播放时间段是相同的，则计算机设备从第一视频数据中，截取与该音乐片段的播放时间段相同的视频片段，得到第二视频数据，该第二视频数据所包括的音频片段即为该音乐片段。

在一种可能实现方式中，音频数据中的音乐片段的数量为多个，也即是在上述步骤401-步骤406中，计算机设备能够确定出多个音乐片段，则在该步骤407中，计算机设备从第一视频数据中，分别截取与每个音乐片段的播放时间段相同的视频片段，从而得到多个第二视频数据。

图9是本申请实施例提供的一种视频片段截取方法的流程图，如图9所示，该方法包括以下步骤：

901、计算机设备获取每个音频帧对应的分类数值。

902、计算机设备根据分类阈值以及每个音频帧对应的分类数值，确定音频数据中的音乐音频帧和非音乐音频帧，将连续的音乐音频帧构成音乐片段，将连续的非音乐音频帧构成非音乐片段。

903、计算机设备将播放时长小于第三时长的音乐片段校正为非音乐片段，将位于起始播放时间段和终止播放时间段的音乐片段校正为非音乐片段，从而将异常的音乐片段过滤掉。

904、计算机设备将两个音乐片段以及两个音乐片段之间播放时长小于第一时长的非音乐片段合并为一个新的音乐片段，将两个非音乐片段以及两个非音乐片段之间播放时长小于第二时长的音乐片段合并为一个新的非音乐片段。

905、计算机设备确定每个音乐片段的播放时间段，从第一视频数据中截取该每个播放时间段的视频片段，从而得到多个第二视频数据，图9中以得到第二视频数据1、第二视频数据2和第二视频数据3为例来说明。

本申请实施例提供的方法，通过对视频数据中的音频数据进行音乐识别，来确定音频数据中的音乐片段，并根据该音乐片段在视频数据中的出现位置，来自动定位视频数据中包括音乐的视频片段，从而将包括音乐的视频片段从视频数据中截取下来，从而提供了一种自动识别音乐片段并基于音乐片段定位视频片段的剪辑方法，实现了视频剪辑的自动化流程，无需人工对视频数据进行标注和剪辑，减少了视频剪辑的时间成本和人力成本，提高了剪辑流程的效率。

并且，考虑到在视频数据中包括音乐的视频片段是比较精彩的视频片段，因此根据音乐片段在视频数据中的出现情况来定位视频数据中精彩的视频片段，不仅能够实现对视频的自动剪辑，还能够保证剪辑得到的视频片段的质量，无需人工筛选视频数据中的精彩片段。

并且，本申请实施例中以帧为单位，分别识别音频数据中的每一个音乐视频帧以及非音乐视频帧，将音乐识别的粒度定位到帧级别，提高了音乐识别的精度。

并且，在提取音频帧的音频特征时，不仅考虑该音频帧本身的频谱信息，还会考虑该音频帧的前序音频帧以及后续音频帧的频谱信息，因此提取到的音频特征中包括了音频帧之间的帧间关系，音频特征的信息量更丰富，后续利用该音频特征进行特征识别的准确率更高。

并且，在确定音频数据中的音乐片段和非音乐片段后，还会基于播放信息，来校正音频数据中的音乐片段和非音乐片段，校正后的音乐片段和非音乐片段考虑了在音频数据中的播放情况，因此提高了确定的音乐片段和非音乐片段的准确性。

并且，将两个音乐片段与这两个音乐片段之间播放时长较小的非音乐片段合并为一个音乐片段，有利于避免同一个音乐被拆分成两部分的情况，进一步提高了音乐识别的准确率。

并且，将两个非音乐片段与这两个非音乐片段之间播放时长较小的音乐片段合并为一个非音乐片段，能够进一步提高了音乐识别的准确率，有利于避免后续截取到不包括音乐的视频片段。

并且，通过将播放时长较小的音乐片段过滤掉，能够避免后续截取的视频片段包括的音乐不够丰富，有利于提高截取的视频片段的质量。

在另一实施例中，计算机设备中存储有音乐识别模型，该音乐识别模型用于识别音频数据中的音乐音频帧。其中，该音乐识别模型包括频谱提取子模型、特征提取子模型和特征识别子模型，频谱提取子模型与特征提取子模型连接，特征提取子模型与特征识别子模型连接，该频谱提取子模型用于提取音频帧的频谱信息，该特征提取子模型用于基于频谱信息提取音频帧的音频特征，该特征识别子模型用于基于音频特征识别音频帧是否为音乐音频帧。

图10是本申请实施例提供的一种特征提取子模型的结构示意图，如图10所示，特征提取子模型包括卷积层1001-卷积层1005、池化层1006-池化层1008以及全连接层1009-全连接层1011。卷积层1001与卷积层1002之间连接有池化层1006，卷积层1002与卷积层1003之间连接有池化层1007，卷积层1004与卷积层1005之间连接有池化层1008，卷积层1005与全连接层1009连接，全连接层1009-全连接层1011之间依次连接。

其中，5个卷积层的卷积核大小为3*3，且每个卷积层是由三个卷积操作堆叠得到的。该特征提取子模型的输入为n个96*64的频谱信息1012，卷积层1001的输出为64阶的信息，卷积层1002的输出为128阶的信息，卷积层1003-卷积层1005的输出为256阶的信息，全连接层1009和全连接层1010的输出为4096阶的信息，全连接层1011的输出为128阶的信息。卷积层用于学习音频帧的频域特性，全连接层用于将多维的特征矩阵降维成一维的特征向量，图10中的池化层可以为最大值池化层或者均值池化层等。

图11是本申请实施例提供的一种特征识别子模型的结构示意图，如图11所示，特征识别子模型包括特征变换网络1101和分类网络1102，特征变换网络1101和分类网络1102连接，该特征变换网络1101用于对音频特征进行特征变换得到关联特征，该分类网络1102用于基于关联特征进行分类。该特征识别子模型的输入为n个128阶的音频特征1103，特征识别子模型的输出为每个音频帧对应的识别结果，该识别结果用于表示音频帧是否属于音乐音频帧。

其中，该特征变换网络1101包括卷积层1111和长短期记忆层1121(LSTM，LongShort-Term Memory)，该卷积层1111为一维卷积层，该卷积层1111用于对高频信息和低频信息进行整合，该长短期记忆层1121用于对长短时信息进行整合。

图12是本申请实施例提供的另一种视频剪辑方法的流程图。本申请实施例的执行主体为计算机设备，该计算机设备可以是图1所示的终端或者服务器，计算机设备调用上述音乐识别模型来识别音频数据中的音乐音频帧，参见图12，该方法包括以下步骤：

1201、计算机设备调用频谱提取子模型，提取第一视频数据中的音频数据中的每个音频帧的频谱信息。

计算机设备将第一视频数据中的音频数据输入至频谱提取子模型中，该频谱提取子模型对音频数据进行频谱提取，输出该音频数据中每个音频帧的频谱信息。

在一种可能实现方式中，该频谱提取子模型包括频域变换网络和滤波网络。计算机设备调用频域变换网络，对每个音频帧进行频域变换，得到每个音频帧的能量谱信息，调用滤波网络，对每个音频帧的能量谱信息进行滤波，得到每个音频帧的频谱信息。可选地，频域变换网络包括用于分帧、加窗和傅里叶变换的操作单元。

其中，频谱提取子模型提取频谱信息的具体过程与上述步骤401的过程同理，在此不再赘述。

1202、计算机设备调用特征提取子模型，分别基于每个音频帧的频谱信息进行特征提取，得到每个音频帧的音频特征。

计算机设备获取到每个音频帧的频谱信息后，分别将每个音频帧的频谱信息输入至特征提取子模型中，该特征提取子模型对每个音频帧的频谱信息进行特征提取，输出每个音频帧的音频特征。

在一种可能实现方式中，该特征提取子模型的网络结构如上述图10所示，对于一个音频帧的频谱信息，按照图10中各个网络层之间的连接顺序进行处理，最终特征提取子模型中的最后一个全连接层输出该音频帧的音频特征。

其中，特征提取子模型提取音频特征的具体过程与上述步骤402的过程同理，在此不再赘述。

1203、计算机设备调用特征识别子模型，基于多个音频帧的音频特征进行特征识别，得到每个音频帧对应的识别结果。

计算机设备得到每个音频帧的音频特征后，将多个音频帧的音频特征输入至特征识别子模型，特征识别子模型基于该多个音频帧的音频特征对音频帧进行特征识别，输出每个音频帧对应的识别结果。可选地，该识别结果为特征向量，该特征向量中包括每个音频帧对应的分类数值，该分类数值表示音频帧属于音乐音频帧的可能性。本申请实施例中，特征提取子模型的输入是帧级别的频谱信息，因此频谱信息的特征粒度是毫秒级别的，从而将音乐识别的粒度定位到毫秒级别，提高了音乐识别的精度。

在一种可能实现方式中，该特征识别子模型的网络结构如上述图11所示，特征识别子模型包括特征变换网络和分类网络，计算机设备调用特征变换网络，基于多个音频帧的音频特征进行特征变换，得到每个音频帧的关联特征，音频帧的关联特征表示音频帧与前序音频帧和后序音频帧之间的关联关系。计算机设备调用分类网络，基于每个音频帧的关联特征进行分类，得到每个音频帧对应的识别结果。

其中，特征识别子模型识别音频帧的具体过程与上述步骤403的过程同理，在此不再赘述。

1204、计算机设备基于每个音频帧对应的识别结果，确定音频数据中的音乐片段。

该步骤1204与上述步骤404-步骤406的过程同理，在此不再赘述。

1205、计算机设备从第一视频数据中，截取与音乐片段的播放时间段相同的视频片段，得到包括音乐片段的第二视频数据。

该步骤1205与上述步骤407的过程同理，在此不再赘述。

本申请实施例提供的方法，调用音乐识别模型对视频数据中的音频数据进行音乐识别，来确定音频数据中的音乐片段，并根据该音乐片段在视频数据中的出现位置，来自动定位视频数据中包括音乐的视频片段，从而将包括音乐的视频片段从视频数据中截取下来，从而提供了一种自动识别音乐片段并基于音乐片段定位视频片段的剪辑方法，实现了视频剪辑的自动化流程，无需人工对视频数据进行标注和剪辑，减少了视频剪辑的时间成本和人力成本，提高了剪辑流程的效率。

并且，本申请实施例调用音乐识别模型，来识别音频数据中的音乐音频帧，简化音乐识别的过程，提高了对音频数据进行音乐识别的便捷性。

并且，特征提取子模型的输入是帧级别的频谱信息，因此频谱信息的特征粒度是毫秒级别的，从而将音乐识别的粒度定位到毫秒级别，提高了音乐识别的精度。

图13是本申请实施例提供的一种音乐识别模型的训练方法的流程图，本申请实施例的执行主体为计算机设备，该实施例中训练的音乐识别模型可应用于上述图12的实施例中，参见图13，该方法包括以下步骤：

1301、计算机设备获取样本音频数据以及样本音频数据中的每个样本音频帧对应的样本识别结果。

为了训练音乐识别模型，计算机设备先获取样本音频数据以及样本音频数据中的每个样本音频帧对应的样本识别结果，该样本识别结果表示样本音频帧是否属于音乐音频帧。例如，计算机设备将属于音乐的音频数据作为样本音频数据，则每个样本识别结果均表示样本音频帧属于音乐音频帧。例如，计算机设备将不属于音乐的音频数据作为样本音频数据，则每个样本识别结果均表示样本音频帧属于非音乐音频帧。可选地，计算机设备从Audioset数据集中获取样本音频数据，或者从本地数据库存储的视频数据中提取音频数据，来作为样本音频数据。

需要说明的是，基于样本音频数据以及对应的样本识别结果训练音乐识别模型的过程包括多次迭代过程。可选地，在每次迭代过程中，基于一个样本音频数据和对应的样本识别结果来进行训练。本申请实施例中的步骤1301-1305仅以一次迭代过程为例进行说明。

1302、计算机设备调用音乐识别模型中的频谱提取子模型，提取每个样本音频帧的样本频谱信息。

1303、计算机设备调用音乐识别模型中的特征提取子模型，分别基于每个样本音频帧的样本频谱信息进行特征提取，得到每个样本音频帧的样本音频特征。

1304、计算机设备调用音乐识别模型中的特征识别子模型，基于多个样本音频帧的样本音频特征进行特征识别，得到每个样本音频帧对应的预测识别结果。

其中，该步骤1302-步骤1304与上述步骤1201-步骤1203的过程同理，在此不再赘述。

1305、计算机设备基于每个样本音频帧对应的预测识别结果与样本识别结果，训练音乐识别模型。

样本音频帧对应的样本识别结果为真实的识别结果，计算机设备获取到的预测识别结果是由音乐识别模型预测的识别结果，由于预测识别结果与真实的样本识别结果越相似，该音乐识别模型越准确。因此，则计算机设备基于该预测识别结果与真实的样本识别结果之间的差异，训练音乐识别模型，以提高音乐识别模型的识别能力，从而提高音乐识别模型的准确性。

在一种可能实现方式中，计算机设备重复上述步骤1301-步骤1305，对音乐识别模型进行迭代训练，响应于迭代轮次达到第一阈值，停止对该音乐识别模型进行训练；或者，响应于当前迭代轮次得到的损失值不大于第二阈值，停止对音乐识别模型进行训练。其中，第一阈值和第二阈值均为任意的数值，例如，第一阈值为1000或1500等，第二阈值为0.004或0.003等。

本申请实施例提供的方法，利用样本音频数据和对应的样本识别结果来训练音乐识别模型，使得音乐识别模型具有识别音频数据中的音乐音频帧的能力，从而提供一种自动识别音乐音频帧的方式。

本申请实施例提供的视频剪辑方法包括两个阶段：音乐识别模型的训练阶段以及基于音乐识别模型对视频片段的截取阶段，图14是本申请实施例提供的一种视频剪辑方法的示意图，如图14所示，该视频剪辑方法包括音乐识别模型的训练阶段1401和视频截取阶段1402，在音乐识别模型的训练阶段1401中，计算机设备从Audioset数据集以及本地数据库中获取样本音频数据，基于样本音频数据训练音乐识别模型。在视频截取阶段1402中，计算机设备提取第一视频数据中的音频数据，调用音乐识别模型对音频数据进行音乐识别，得到音频数据中的多个音乐片段，然后从视频数据中分别截取与每个音乐片段的播放时间段相同的视频片段，得到多个精彩的第二视频数据集锦，图14中以得到第二视频数据_1、第二视频数据_2和第二视频数据_3为例来说明。

对第一视频数据进行剪辑，得到包括音乐片段的第二视频数据之后，还可以将该第二视频数据发布出去，以便更多用户观看。图15是本申请实施例提供的一种视频剪辑方法的流程图。本申请实施例的交互主体为终端和服务器，参见图15，该方法包括：

1501、终端显示第一视频数据的剪辑选项。

1502、终端响应于对剪辑选项的触发操作，向服务器发送对第一视频数据的剪辑请求。

当视频数据的管理人员想要对第一视频数据进行剪辑时，执行对该剪辑选项的触发操作，终端响应于对该剪辑选项的触发操作，生成对该第一视频数据的剪辑请求，向服务器发送该剪辑请求，该剪辑请求用于请求服务器对第一视频数据进行剪辑。

1503、服务器响应于剪辑请求，截取第一视频数据中与音乐片段的播放时间段相同的视频片段，得到包括音乐片段的第二视频数据，向终端返回剪辑完成通知。

服务器响应于对该第一视频数据的剪辑请求，则确定该第一视频数据中的音乐片段，并从第一视频数据中，截取与该音乐片段的播放时间段相同的视频片段，得到包括该音乐片段的第二视频数据，并向终端发送剪辑完成通知，该剪辑完成通知用于通知对第一视频数据剪辑完成。

在一种可能实现方式中，该剪辑请求携带第一视频数据的视频标识，该视频标识指示第一视频数据。服务器获取该剪辑请求中携带的视频标识，从视频数据库中查找该视频标识指示的第一视频数据，并对第一视频数据进行剪辑。

在一种可能实现方式中，服务器采用上述图2、图4或者图12的实施例提供的视频剪辑方法，从第一视频数据中截取包括音乐片段的视频片段，将该视频片段确定为第二视频数据。

1504、终端响应于服务器发送的剪辑完成通知，显示第二视频数据对应的发布选项。

终端响应于该剪辑完成通知，显示第二视频数据对应的发布选项，该发布选项用于发布第二视频数据。

在一种可能实现方式中，该剪辑完成通知携带第二视频数据，终端响应于服务器发送的剪辑完成通知，获取剪辑完成通知携带的第二视频数据，并显示第二视频数据，则视频数据的管理人员可对自动剪辑的该第二视频数据进行查看。由于第二视频数据是由服务器自动剪辑的，因此通过显示该第二视频数据，可以由管理人员对该第二视频数据进行检查，如果第二视频数据没有问题，后续可以直接发布该第二视频数据，如果第二视频数据有问题，管理人员还可以对该第二视频数据进行手动剪辑，以保证第二视频数据的质量。

在一种可能实现方式中，服务器对第一视频数据进行剪辑，得到多个第二视频数据，该剪辑完成通知中包括每个第二视频数据的视频标识。终端响应于该剪辑完成通知，显示每个第二视频数据对应的发布选项。

图16是本申请实施例提供的一种视频管理界面的示意图，如图16所示，终端显示视频管理界面，该视频管理界面包括视频显示子界面1601和音频显示子界面1602，视频显示子界面1601中包括截取的第二视频数据，音频显示子界面1602中包括第二视频数据中的音频数据的音轨，该音频数据是第二视频数据中的BGM。

1505、终端响应于对发布选项的确认操作，向服务器发送发布请求。

当视频数据的管理人员想要发布该第二视频数据时，则从终端上执行对该发布选项的确认操作，该确认操作包括点击操作、滑动操作或者拖拽操作等。终端响应于对该发布选项的确认操作，生成对该第二视频数据的发布请求，向服务器发送该发布请求，该发布请求用于请求服务器发布该第二视频数据。

1506、服务器响应于发布请求，发布第二视频数据。

在一种可能实现方式中，该发布请求携带第二视频数据的视频标识，服务器查找该视频标识指示的第二视频数据，发布该第二视频数据。

在另一实施例中，终端运行有视频播放客户端和视频管理客户端，该视频播放客户端和视频管理客户端均由服务器提供服务，视频管理客户端用于管理视频播放客户端中所发布的视频数据，例如可以通过视频管理客户端，在视频播放客户端中发布视频数据、删除视频数据或者修改视频数据等。

终端在视频管理客户端中显示第一视频数据的剪辑选项，响应于对剪辑选项的触发操作，通过视频管理客户端向服务器发送对第一视频数据的剪辑请求。服务器响应于剪辑请求，截取第一视频数据中的音乐片段，得到第二视频数据，向视频管理客户端返回剪辑完成通知。终端响应于该剪辑完成通知，在视频管理客户端中显示第二视频数据对应的发布选项，响应于对发布选项的确认操作，通过视频管理客户端向服务器发送发布请求。服务器响应于发布请求，将第二视频数据发布于视频播放客户端中。其中，服务器将第二视频数据发布于视频播放客户端，是指服务器将第二视频数据发送至运行有该视频播放客户端的终端中，从而终端能够在该视频播放客户端中播放该第二视频数据，以便更多用户能够观看到该第二视频数据。

本申请实施例提供的方法，仅需执行对第一视频数据的剪辑选项的触发操作，即可自动从第一视频数据中截取出包括音乐片段的第二视频数据，无需手动执行复杂的剪辑操作，提高了视频剪辑的效率。并且，由于自动剪辑出来的第二视频数据包括音乐片段，该第二视频数据对用户的吸引力更大，因此将该第二视频数据发布出去，有利于提高视频数据的浏览量。

图17是本申请实施例提供的一种视频剪辑装置的结构示意图。参见图17，该装置包括：

识别模块1701，用于对第一视频数据中的音频数据进行音乐识别，得到音频数据中的每个音频帧对应的识别结果，识别结果表示音频帧是否属于音乐音频帧；

确定模块1702，用于基于每个音频帧对应的识别结果，确定音频数据中的音乐片段，该音乐片段包括多个音乐音频帧；

截取模块1703，用于从第一视频数据中，截取与音乐片段的播放时间段相同的视频片段，得到包括音乐片段的第二视频数据。

本申请实施例提供的视频剪辑装置，通过对视频数据中的音频数据进行音乐识别，来确定音频数据中的音乐片段，并根据该音乐片段在视频数据中的出现位置，来自动定位视频数据中包括音乐的视频片段，从而将包括音乐的视频片段从视频数据中截取下来，实现了视频剪辑的自动化流程，无需手动对视频进行剪辑，提高了视频剪辑的效率。

可选地，参见图18，识别模块1701，包括：

频谱提取单元1711，用于提取每个音频帧的频谱信息；

特征提取单元1721，用于分别基于每个音频帧的频谱信息进行特征提取，得到每个音频帧的音频特征；

特征识别单元1731，用于基于多个音频帧的音频特征进行特征识别，得到每个音频帧对应的识别结果。

可选地，参见图18，频谱提取单元1711，用于：

对每个音频帧进行频域变换，得到每个音频帧的能量谱信息；

对每个音频帧的能量谱信息进行滤波，得到每个音频帧的频谱信息。

可选地，参见图18，特征提取单元1721，用于：

将第一音频帧的第一数量个前序音频帧、第一音频帧以及第一音频帧的第二数量个后序音频帧构成帧集合，前序音频帧为位于第一音频帧之前的音频帧，后序音频帧为位于第一音频帧之后的音频帧；

对帧集合中的多个音频帧的频谱信息进行特征提取，将提取得到的音频特征确定为第一音频帧的音频特征；

其中，第一音频帧为音频数据中的任一音频帧。

可选地，参见图18，装置还包括：

填充模块1704，用于在第一音频帧的前序音频帧的数量小于第一数量的情况下，在第一音频帧之前填充至少一个音频帧，以使第一音频帧的前序音频帧的数量等于第一数量；

填充模块1704，还用于在第一音频帧的后序音频帧的数量小于第二数量的情况下，在第一音频帧之后填充至少一个音频帧，以使第一音频帧的后序音频帧的数量等于第二数量。

可选地，参见图18，特征识别单元1731，用于：

基于多个音频帧的音频特征进行特征变换，得到每个音频帧的关联特征，音频帧的关联特征表示音频帧与前序音频帧和后序音频帧之间的关联关系；

基于每个音频帧的关联特征进行分类，得到每个音频帧对应的识别结果。

可选地，参见图18，音乐识别模型包括频谱提取子模型、特征提取子模型和特征识别子模型，识别模块1701，包括：

频谱提取单元1711，用于调用频谱提取子模型，提取每个音频帧的频谱信息；

特征提取单元1721，用于调用特征提取子模型，分别基于每个音频帧的频谱信息进行特征提取，得到每个音频帧的音频特征；

特征识别单元1731，用于调用特征识别子模型，基于多个音频帧的音频特征进行特征识别，得到每个音频帧对应的识别结果。

可选地，参见图18，特征识别子模型包括特征变换网络和分类网络，特征识别单元1731，用于：

调用特征变换网络，基于多个音频帧的音频特征进行特征变换，得到每个音频帧的关联特征，音频帧的关联特征表示音频帧与前序音频帧和后序音频帧之间的关联关系；

调用分类网络，基于每个音频帧的关联特征进行分类，得到每个音频帧对应的识别结果。

可选地，参见图18，装置还包括模型训练模块1705，用于：

获取样本音频数据以及样本音频数据中的每个样本音频帧对应的样本识别结果，样本识别结果表示样本音频帧是否属于音乐音频帧；

调用频谱提取子模型，提取每个样本音频帧的样本频谱信息；

调用特征提取子模型，分别基于每个样本音频帧的样本频谱信息进行特征提取，得到每个样本音频帧的样本音频特征；

调用特征识别子模型，基于多个样本音频帧的样本音频特征进行特征识别，得到每个样本音频帧对应的预测识别结果；

基于每个样本音频帧对应的预测识别结果与样本识别结果，训练音乐识别模型。

可选地，参见图18，音频帧对应的识别结果为分类数值，分类数值表示音频帧属于音乐音频帧的可能性；确定模块1702，包括：

第一确定单元1712，用于在音频帧的分类数值大于分类阈值的情况下，将音频帧确定为音乐音频帧；

第一构成单元1722，用于将音频数据中连续的多个音乐音频帧构成音乐片段。

可选地，参见图18，确定模块1702，包括：

第二确定单元1732，用于基于每个音频帧对应的识别结果，确定音频数据中的音乐音频帧和非音乐音频帧；

第二构成单元1742，用于将音频数据中连续的多个音乐音频帧构成音乐片段，将连续的多个非音乐音频帧构成非音乐片段；

校正单元1752，用于根据音乐片段的播放信息或非音乐片段的播放信息中的至少一项，校正音频数据中的音乐片段和非音乐片段。

可选地，参见图18，播放信息包括播放时长，校正单元1752，用于在第一音乐片段与第二音乐片段之间存在第一非音乐片段，且第一非音乐片段的播放时长小于第一时长的情况下，将第一音乐片段、第二音乐片段与第一非音乐片段合并为一个音乐片段。

可选地，参见图18，播放信息包括播放时长，校正单元1752，用于在第二非音乐片段与第三非音乐片段之间存在第三音乐片段，且第三音乐片段的播放时长小于第二时长的情况下，将第二非音乐片段、第三非音乐片段与第三音乐片段合并为一个非音乐片段。

可选地，参见图18，播放信息包括播放时长，校正单元1752，用于在第四音乐片段的播放时长小于第三时长的情况下，将第四音乐片段校正为非音乐片段。

可选地，参见图18，播放信息包括播放时间段，校正单元1752，用于：

在第五音乐片段的播放时间段位于音频数据的起始时间段内的情况下，将第五音乐片段校正为非音乐片段；或者，

在第五音乐片段的播放时间段位于音频数据的结束时间段内的情况下，将第五音乐片段校正为非音乐片段。

图19是本申请实施例提供的一种视频剪辑装置的结构示意图。参见图19，该装置包括：

第一显示模块1901，用于显示第一视频数据的剪辑选项；

截取模块1902，用于响应于对剪辑选项的触发操作，截取第一视频数据中与音乐片段的播放时间段相同的视频片段，得到包括音乐片段的第二视频数据；

发布模块1903，用于响应于对第二视频数据的发布操作，发布第二视频数据。

本申请实施例提供的视频剪辑装置，仅需执行对第一视频数据的剪辑选项的触发操作，计算机设备即可自动从第一视频数据中截取出包括音乐片段的第二视频数据，无需手动执行复杂的剪辑操作，提高了视频剪辑的效率。并且，由于自动剪辑出来的第二视频数据包括音乐片段，该第二视频数据对用户的吸引力更大，因此将该第二视频数据发布出去，有利于提高视频数据的浏览量。

可选地，参见图20，截取模块1902，包括：

剪辑请求单元1912，用于响应于对剪辑选项的触发操作，向服务器发送对第一视频数据的剪辑请求，服务器用于响应于剪辑请求，截取第一视频数据中与音乐片段的播放时间段相同的视频片段，得到第二视频数据，返回剪辑完成通知；

发布模块1903，包括：

发布选项显示单元1913，用于响应于服务器发送的剪辑完成通知，显示第二视频数据对应的发布选项；

发布请求单元1923，用于响应于对发布选项的确认操作，向服务器发送发布请求，服务器用于响应于发布请求，发布第二视频数据。

可选地，参见图20，剪辑完成通知携带第二视频数据，装置还包括：

第二显示模块1904，用于响应于服务器发送的剪辑完成通知，获取剪辑完成通知携带的第二视频数据，显示第二视频数据。

需要说明的是：上述实施例提供的视频剪辑装置在进行视频剪辑时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频剪辑装置与视频剪辑方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的视频剪辑方法中所执行的操作。

可选地，该计算机设备提供为终端。图21示出了本申请一个示例性实施例提供的终端2100的结构示意图。

终端2100包括有：处理器2101和存储器2102。

处理器2101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器2101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器2101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器2101可以集成有GPU(Graphics Processing Unit，图像处理的交互器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器2101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器2102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器2102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器2102中的非暂态的计算机可读存储介质用于存储至少一条计算机程序，该至少一条计算机程序用于被处理器2101所具有以实现本申请中方法实施例提供的视频剪辑方法。

在一些实施例中，终端2100还可选包括有：外围设备接口2103和至少一个外围设备。处理器2101、存储器2102和外围设备接口2103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口2103相连。可选地，外围设备包括：射频电路2104和显示屏2105中的至少一种。

外围设备接口2103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器2101和存储器2102。在一些实施例中，处理器2101、存储器2102和外围设备接口2103被集成在同一芯片或电路板上；在一些其他实施例中，处理器2101、存储器2102和外围设备接口2103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路2104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路2104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路2104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路2104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路2104可以通过至少一种无线通信协议来与其它设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路2104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏2105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏2105是触摸显示屏时，显示屏2105还具有采集在显示屏2105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器2101进行处理。此时，显示屏2105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏2105可以为一个，设置在终端2100的前面板；在另一些实施例中，显示屏2105可以为至少两个，分别设置在终端2100的不同表面或呈折叠设计；在另一些实施例中，显示屏2105可以是柔性显示屏，设置在终端2100的弯曲表面上或折叠面上。甚至，显示屏2105还可以设置成非矩形的不规则图形，也即异形屏。显示屏2105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

本领域技术人员可以理解，图21中示出的结构并不构成对终端2100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，该计算机设备提供为服务器。图22是本申请实施例提供的一种服务器的结构示意图，该服务器2200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)2201和一个或一个以上的存储器2202，其中，所述存储器2202中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器2201加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的视频剪辑方法中所执行的操作。

本申请实施例还提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机程序代码，计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取计算机程序代码，处理器执行计算机程序代码，使得计算机设备实现如上述实施例的视频剪辑方法中所执行的操作。在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频剪辑方法，其特征在于，所述方法包括：

提取第一视频数据中的音频数据中的每个音频帧的频谱信息；

将第一音频帧的第一数量个前序音频帧、所述第一音频帧以及所述第一音频帧的第二数量个后序音频帧构成帧集合；其中，所述第一音频帧为所述音频数据中的任一音频帧，所述前序音频帧为位于所述第一音频帧之前的音频帧，所述后序音频帧为位于所述第一音频帧之后的音频帧；

将所述帧集合中的多个音频帧的频谱信息进行组合，得到融合频谱信息，对所述融合频谱信息进行特征提取，得到音频特征，将提取得到的音频特征确定为所述第一音频帧的音频特征；

基于多个所述音频帧的音频特征进行特征变换，得到每个所述音频帧的关联特征，所述音频帧的关联特征表示所述音频帧与前序音频帧和后序音频帧之间的关联关系；基于每个所述音频帧的关联特征进行分类，得到每个所述音频帧对应的识别结果，所述识别结果表示所述音频帧是否属于音乐音频帧；

基于每个所述音频帧对应的识别结果，确定所述音频数据中的音乐音频帧和非音乐音频帧；将所述音频数据中连续的多个音乐音频帧构成音乐片段，将连续的多个非音乐音频帧构成非音乐片段；根据所述音乐片段的播放信息或所述非音乐片段的播放信息中的至少一项，校正所述音频数据中的所述音乐片段和所述非音乐片段，所述播放信息用于表示播放情况，所述播放信息包括播放时长、播放时间点或者播放时间段中的至少一项；

2.根据权利要求1所述的方法，其特征在于，所述提取第一视频数据中的音频数据中的每个音频帧的频谱信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述第一音频帧的前序音频帧的数量小于所述第一数量的情况下，在所述第一音频帧之前填充至少一个音频帧，以使所述第一音频帧的前序音频帧的数量等于所述第一数量；

在所述第一音频帧的后序音频帧的数量小于所述第二数量的情况下，在所述第一音频帧之后填充至少一个音频帧，以使所述第一音频帧的后序音频帧的数量等于所述第二数量。

4.根据权利要求1所述的方法，其特征在于，音乐识别模型包括频谱提取子模型、特征提取子模型和特征识别子模型；

调用所述频谱提取子模型，执行提取第一视频数据中的音频数据中的每个音频帧的频谱信息的步骤；

调用所述特征提取子模型，执行将第一音频帧的第一数量个前序音频帧、所述第一音频帧以及所述第一音频帧的第二数量个后序音频帧构成帧集合，将所述帧集合中的多个音频帧的频谱信息进行组合，得到融合频谱信息，对所述融合频谱信息进行特征提取，得到音频特征，将提取得到的音频特征确定为所述第一音频帧的音频特征的步骤；

调用所述特征识别子模型，执行基于多个所述音频帧的音频特征进行特征变换，得到每个所述音频帧的关联特征，基于每个所述音频帧的关联特征进行分类，得到每个所述音频帧对应的识别结果的步骤。

5.根据权利要求1所述的方法，其特征在于，所述播放信息包括播放时长，所述根据所述音乐片段的播放信息或所述非音乐片段的播放信息中的至少一项，校正所述音频数据中的所述音乐片段和所述非音乐片段，包括：

在第一音乐片段与第二音乐片段之间存在第一非音乐片段，且所述第一非音乐片段的播放时长小于第一时长的情况下，将所述第一音乐片段、所述第二音乐片段与所述第一非音乐片段合并为一个音乐片段。

6.根据权利要求1所述的方法，其特征在于，所述播放信息包括播放时长，所述根据所述音乐片段的播放信息或所述非音乐片段的播放信息中的至少一项，校正所述音频数据中的所述音乐片段和所述非音乐片段，包括：

在第二非音乐片段与第三非音乐片段之间存在第三音乐片段，且所述第三音乐片段的播放时长小于第二时长的情况下，将所述第二非音乐片段、所述第三非音乐片段与所述第三音乐片段合并为一个非音乐片段。

7.根据权利要求1所述的方法，其特征在于，所述播放信息包括播放时长，所述根据所述音乐片段的播放信息或所述非音乐片段的播放信息中的至少一项，校正所述音频数据中的所述音乐片段和所述非音乐片段，包括：

在第四音乐片段的播放时长小于第三时长的情况下，将所述第四音乐片段校正为所述非音乐片段。

8.根据权利要求1所述的方法，其特征在于，所述播放信息包括播放时间段，所述根据所述音乐片段的播放信息或所述非音乐片段的播放信息中的至少一项，校正所述音频数据中的所述音乐片段和所述非音乐片段，包括：

9.一种视频剪辑方法，其特征在于，所述方法包括：

显示第一视频数据的剪辑选项；

响应于对所述剪辑选项的触发操作，提取所述第一视频数据中的音频数据中的每个音频帧的频谱信息；

从所述第一视频数据中，截取与所述音乐片段的播放时间段相同的视频片段，得到包括所述音乐片段的第二视频数据；

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

响应于对所述剪辑选项的触发操作，向服务器发送对所述第一视频数据的剪辑请求，所述服务器用于响应于所述剪辑请求，截取所述第一视频数据中与所述音乐片段的播放时间段相同的视频片段，得到所述第二视频数据，返回剪辑完成通知；

所述响应于对所述第二视频数据的发布操作，发布所述第二视频数据，包括：

响应于所述服务器发送的剪辑完成通知，显示所述第二视频数据对应的发布选项；

响应于对所述发布选项的确认操作，向所述服务器发送发布请求，所述服务器用于响应于所述发布请求，发布所述第二视频数据。

11.根据权利要求10所述的方法，其特征在于，所述剪辑完成通知携带所述第二视频数据，所述方法还包括：

响应于所述服务器发送的剪辑完成通知，获取所述剪辑完成通知携带的所述第二视频数据，显示所述第二视频数据。

12.一种视频剪辑装置，其特征在于，所述装置包括：

识别模块，用于提取第一视频数据中的音频数据中的每个音频帧的频谱信息；将第一音频帧的第一数量个前序音频帧、所述第一音频帧以及所述第一音频帧的第二数量个后序音频帧构成帧集合；其中，所述第一音频帧为所述音频数据中的任一音频帧，所述前序音频帧为位于所述第一音频帧之前的音频帧，所述后序音频帧为位于所述第一音频帧之后的音频帧；将所述帧集合中的多个音频帧的频谱信息进行组合，得到融合频谱信息，对所述融合频谱信息进行特征提取，得到音频特征，将提取得到的音频特征确定为所述第一音频帧的音频特征；基于多个所述音频帧的音频特征进行特征变换，得到每个所述音频帧的关联特征，所述音频帧的关联特征表示所述音频帧与前序音频帧和后序音频帧之间的关联关系；基于每个所述音频帧的关联特征进行分类，得到每个所述音频帧对应的识别结果，所述识别结果表示所述音频帧是否属于音乐音频帧；

确定模块，用于基于每个所述音频帧对应的识别结果，确定所述音频数据中的音乐音频帧和非音乐音频帧；将所述音频数据中连续的多个音乐音频帧构成音乐片段，将连续的多个非音乐音频帧构成非音乐片段；根据所述音乐片段的播放信息或所述非音乐片段的播放信息中的至少一项，校正所述音频数据中的所述音乐片段和所述非音乐片段，所述播放信息用于表示播放情况，所述播放信息包括播放时长、播放时间点或者播放时间段中的至少一项；

13.一种视频剪辑装置，其特征在于，所述装置包括：

第一显示模块，用于显示第一视频数据的剪辑选项；

截取模块，用于响应于对所述剪辑选项的触发操作，提取所述第一视频数据中的音频数据中的每个音频帧的频谱信息；将第一音频帧的第一数量个前序音频帧、所述第一音频帧以及所述第一音频帧的第二数量个后序音频帧构成帧集合；其中，所述第一音频帧为所述音频数据中的任一音频帧，所述前序音频帧为位于所述第一音频帧之前的音频帧，所述后序音频帧为位于所述第一音频帧之后的音频帧；将所述帧集合中的多个音频帧的频谱信息进行组合，得到融合频谱信息，对所述融合频谱信息进行特征提取，得到音频特征，将提取得到的音频特征确定为所述第一音频帧的音频特征；基于多个所述音频帧的音频特征进行特征变换，得到每个所述音频帧的关联特征，所述音频帧的关联特征表示所述音频帧与前序音频帧和后序音频帧之间的关联关系；基于每个所述音频帧的关联特征进行分类，得到每个所述音频帧对应的识别结果，所述识别结果表示所述音频帧是否属于音乐音频帧；基于每个所述音频帧对应的识别结果，确定所述音频数据中的音乐音频帧和非音乐音频帧；将所述音频数据中连续的多个音乐音频帧构成音乐片段，将连续的多个非音乐音频帧构成非音乐片段；根据所述音乐片段的播放信息或所述非音乐片段的播放信息中的至少一项，校正所述音频数据中的所述音乐片段和所述非音乐片段，所述播放信息用于表示播放情况，所述播放信息包括播放时长、播放时间点或者播放时间段中的至少一项；从所述第一视频数据中，截取与所述音乐片段的播放时间段相同的视频片段，得到包括所述音乐片段的第二视频数据；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如权利要求1至8任一项所述的视频剪辑方法所执行的操作，或者实现如权利要求9至11任一项所述的视频剪辑方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如权利要求1至8任一项所述的视频剪辑方法所执行的操作，或者实现如权利要求9至11任一项所述的视频剪辑方法所执行的操作。