CN111182347A

CN111182347A - 视频片段剪切方法、装置、计算机设备和存储介质

Info

Publication number: CN111182347A
Application number: CN202010014083.5A
Authority: CN
Inventors: 梁启仍
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-05-19
Anticipated expiration: 2040-01-07
Also published as: CN111182347B

Abstract

本申请实施例公开了一种视频片段剪切方法、装置、计算机设备和存储介质，获取原始视频的视频帧序列和音频帧序列；对所述音频帧序列进行特征提取，得到音频特征信息；根据所述音频特征信息对所述音频帧序列中的关键音频片段进行识别，得到至少一个关键音频片段对应的视频时间信息；根据所述关键音频片段对应的视频时间信息，对所述视频帧序列进行剪切，得到至少一个关键视频片段。该方案可以基于视频的音频特征识别关键音频片段，并基于视频的关键音频片段来自动捕获完整性较强的关键视频片段，提升了视频片段剪切的效率和完整性。

Description

视频片段剪切方法、装置、计算机设备和存储介质

技术领域

本申请涉及互联网技术领域，具体涉及一种视频片段剪切方法、装置、计算机设备和存储介质。

背景技术

随着通信技术的发展和移动设备的大众化，用户逐渐脱离电视进而使用移动设备观看视频，视频节目及内容迎来了爆发性增长期。为了能够电影、电视剧、综艺等形式的节目都想第一时间抓住观众的眼球，视频厂商可以采用小窗预览、视频海报、详情页展示等以播放节目关键内容的形式，能让用户花最小的代价获取对应节目的关键信息，并根据自身喜好来选择是否进一步点选长视频进行观看。这就需要应用到关键视频片段的剪切技术。

目前的视频片段剪切方式主要包括人工剪切、基于深度学习的关键内容检索剪切等方式，其中，人工剪切，视频剪切人员需要对长视频内容进行完整的观看，然后根据节目内容从中剪切出来的候选片段，具体地，通过人工观看长视频节目，主观挑选出几处关键性的视频片段，记录它们在原始长视频中对应的起始时间和结束时间。后续应用需要播放展示这些视频片段时，只需根据起始时间和结束时间，在播放器中进行起始A点到结束B点的重复播放，就能循环播放关键视频片段达到视频简介效果。也可以将剪切出来的视频片段进行剥离复制并重新编码生成一个新的短视频流，交由播放器进行播放展示但是即便如此依然需要耗费大量的审阅筛选工时，视频片段剪切的效率低下，尤其是面对海量的视频情况下。

其中，基于视频帧的关键内容检测检索剪切方式需要进行模型训练，并且还需结合长视频的分类特点才能进行较为准确的视频切割。例如动作战争电影，关键片段视频帧画面需要含有动作、冲突、爆破等画面元素；综艺节目，夸张的人物表情和动作是关键片段的重要元素。剪切出来的视频需要包含对应的元素帧画面，才能称之为关键片段视频。

然而，采用深度学习的方式，需要预先训练出能对视频帧数据进行分类的模型。结合一定的先验知识，比如视频是动作电影还是搞笑综艺，最终模型输出符合视频分类限定元素的关键帧数据。但是由于图像时间上本质是离散的(1秒钟25帧或者30帧)，所以模型输出帧数据很大可能在内容上不是连续的，进而无法组合成关键视频，模型输出的关键帧数据在时间序号上是不连续的，无法组合成一个完整的视频片段，因此，剪切的视频片段完整性比较差。

发明内容

本申请实施例提供一种视频片段剪切方法、装置、计算机设备和存储介质，可以提升关键视频片段的剪切效率和完整性。

本申请实施例提供一种视频片段剪切方法，该方法包括：

获取原始视频的视频帧序列和音频帧序列；

对所述音频帧序列进行特征提取，得到音频特征信息；

根据所述音频特征信息对所述音频帧序列中的关键音频片段进行识别，得到至少一个关键音频片段对应的视频时间信息；

根据所述关键音频片段对应的视频时间信息，对所述视频帧序列进行剪切，得到至少一个关键视频片段。

本申请实施例还提供一种视频片段剪切装置，该装置包括：

获取单元，用于获取原始视频的视频帧序列和音频帧序列；

特征提取单元，用于对所述音频帧序列进行特征提取，得到音频特征信息；

识别单元，用于根据所述音频特征信息对所述音频帧序列中的关键音频片段进行识别，得到至少一个关键音频片段对应的视频时间信息；

剪切单元，用于根据所述关键音频片段对应的视频时间信息，对所述视频帧序列进行剪切，得到至少一个关键视频片段。

在一实施例中，所述识别单元，包括：

指纹生成子单元，用于根据所述音频帧序列生成至少两个采样视频时间点的音频指纹；

识别子单元，用于基于采样视频时间点对应的音频指纹，对所述音频帧序列中的关键音频片段进行识别；

时间获取子单元，用于当关键音频片段识别成功时，获取关键音频片段对应的起止视频时间点，得到至少一个关键音频片段对应的起止视频时间点。

在一实施例中，所述识别子单元，用于：

将采样视频时间点对应的音频指纹，与预设关键音频片段中采样音频时间点的音频指纹进行匹配，得到匹配结果；

基于匹配结果确定所述音频帧序列中的关键音频片段。

在一实施例中，所述时间获取子单元，用于获取识别到的关键帧片段对应的原始起止视频时间点；根据预设关键音频片段对应的音频时间信息，对所述原始起止视频时间点进行回溯，得到至少一个关键音频片段对应的起止视频时间点。

在一实施例中，所述指纹生成子单元，用于：

将所述音频帧序列中每个音频帧对应的音频信号变换到频域，得到频域数据；

从所述音频频谱数据中选择位于预设频率范围内的目标音频数据；

将所述目标音频数据分解成至少两个子带；

基于每个子带之间的差分信息，生成采样视频时间点的音频指纹，得到至少两个采样视频时间点的音频指纹。

在一实施例中，所述指纹生成子单元，用于：

基于频域帧数据生成表征每个音频帧状态的状态序列；

基于所述状态序列生成采样视频时间点的音频指纹，得到至少两个采样视频时间点的音频指纹。

在一实施例中，识别子单元，用于：每隔预设时间段向服务器发送识别请求，所述识别请求携带采样视频时间点对应的音频指纹；接收所述服务器基于所述识别请求返回的关键片段识别结果；当关键音频片段识别失败，且满足预设循环请求条件时，返回执行每隔预设时间段向服务器发送识别请求的步骤。

在一实施例中，所述识别单元，包括：

确定子单元，用于基于所述音频特征信息确定所述音频帧序列中音频特征变化时间点；

分割子单元，用于基于所述音频帧序列对应的音频特征变化时间点，对所述音频帧序列进行关键音频片段分割，得到至少一个关键音频片段对应的视频时间信息。

在一实施例中，视频片段剪切装置，所述特征提取单元，用于：

根据所述音频帧序列生成至少两个采样视频时间点的音频指纹；

基于采样视频时间点对应的音频指纹，对所述音频帧序列中的关键音频片段进行识别；

当关键音频片段识别失败时，对所述音频帧序列进行特征提取，得到音频特征信息。

在一实施例中，所述音频特征信息包括：每个视频时间点对应的多维度声学特征；所述确定子单元，用于：

针对每个视频时间点，对视频时间点对应的多维度声学特征进行短时特征变化分析、长时特征变化分析，得到每个视频时间点对应的长时分析结果、短时分析结果；

对所述长时分析结果和所述短时分析结果进行融合，得到所述视频时间点的目标分析结果；

基于所述目标分析结果确定所述音频帧序列中音频特征变化时间点。

在一实施例中，所述确定子单元，用于：

确定所述视频时间点对应的长时视频时间窗口、短时视频时间窗口；

对所述长时视频时间窗口内视频时间点对应的多维度声学特征进行特征变化分析，得到所述视频时间点对应的长时分析结果；

对所述短时视频时间窗口内视频时间点对应的多维度声学特征进行特征变化分析，得到所述视频时间点对应的短时分析结果。

在一实施例中，所述长时分析结果包括所述视频时间点为声学特征变化时间点的长时得分；所述确定子单元，用于：

对所述长时视频时间窗口内视频时间点对应的多维度声学特征进行分析，得到在每个维度上所述视频时间点为声学特征变化时间点的得分；

对每个维度上所述视频时间点为声学特征变化时间点的得分进行融合，得到所述视频时间点为声学特征变化时间点的长时得分。

在一实施例中，所述短时分析结果包括所述视频时间点为声学特征变化时间点的短时得分；所述确定子单元，用于：

对所述短时视频时间窗口内视频时间点对应的多维度声学特征进行分析，得到在每个维度上所述视频时间点为声学特征变化时间点的得分；

对每个维度上所述视频时间点为声学特征变化时间点的得分进行融合，得到所述视频时间点为声学特征变化时间点的短时得分。

在一实施例中，所述确定子单元，用于：

获取长时得分对应的第一权重，以及短时得分对应的第二权重；

基于第一权重和第二权重，对所述长时得分和短时得分进行加权处理，得到加权后得分；

将加权后得分与预设阈值进行对比，并根据对比结果确定所述音频帧序列中声学特征变化时间点。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如视频片段剪切方法的步骤。

本实施例还提供一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如所述视频片段剪切方法的步骤。

本申请实施例可以获取原始视频的视频帧序列和音频帧序列；对所述音频帧序列进行特征提取，得到音频特征信息；根据所述音频特征信息对所述音频帧序列中的关键音频片段进行识别，得到至少一个关键音频片段对应的视频时间信息；根据所述关键音频片段对应的视频时间信息，对所述视频帧序列进行剪切，得到至少一个关键视频片段。该方案可以基于视频的音频特征识别关键音频片段，并基于视频的关键音频片段来自动捕获完整性较强的关键视频片段，避免了人工剪切速度慢、花费时间长多、以及深度学习剪切方式导致视频片段的完整性较低的问题，从而提升了视频片段剪切的效率和完整性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的视频片段剪切方法的场景示意图；

图1b是本申请实施例提供的视频播放方法的流程图；

图1c是本申请实施例提供的视频片段剪切的逻辑示意图；

图1d是本申请实施例提供的音频内容分层描述模型的结构示意图；

图2a是本申请实施例提供的曲纹识别的流程示意图；

图2b是本申请实施例提供的时间回溯示意图；

图2c是本申请实施例提供的音频盲特征分析的示意图；

图2d是本申请实施例提供的音频特征提取模块的逻辑示意图；

图3a是本申请实施例提供的视频片段剪切产品形态示意图；

图3b是本申请实施例提供的视频片段剪切的应用示意图；

图3c是现有视频剪切方式剪切的视频片段示意图；

图4是本申请实施例提供的视频片段剪切方法的另一流程图；

图5a是本申请实施例提供的视频片段剪切装置的结构示意图；

图5b是本申请实施例提供的视频片段剪切装置的另一结构示意图；

图5c是本申请实施例提供的视频片段剪切装置的另一结构示意图；

图6是本申请实施例提供的计算机设备的结构示意图；

图7a是本申请实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图；

图7b是本申请实施例提供的区块结构的一个可选的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视频片段剪切方法、装置、计算机设备和存储介质。具体地，本申请实施例提供适用于计算机设备的视频片段剪切装置。其中，该计算机设备可以为终端或服务器等设备，该终端可以为手机、平板电脑、笔记本电脑等设备。该服务器可以是单台服务器，也可以是由多个服务器组成的服务器集群。

参考图1a，以计算机设备为终端为例，本申请实施例提供了视频片段剪切系统包括终端10和服务器20等；终端10与服务器20之间通过网络连接，比如，通过有线或无线网络连接等，其中，视频片段剪切装置集成在终端中，比如，以客户端的形式集成在终端10中，该客户端可以是视频客户端，浏览器客户端等。

其中，终端10，可以获取原始视频的视频帧序列和音频帧序列，比如，可以从服务器20请求获取原始视频数据，对原始视频数据解封装解码得到原始视频的视频帧序列和音频帧序列；然后，终端10可以对音频帧序列进行特征提取，得到音频特征信息；根据音频特征信息对音频帧序列中的关键音频片段进行识别，得到至少一个关键音频片段对应的视频时间信息；根据关键音频片段对应的视频时间信息，对视频帧序列进行剪切，得到至少一个关键视频片段。此外，终端10还可以对关键视频片段重新编码，存在编码后关键视频片段。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本申请实施例提供了一种视频片段剪切方法，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行；本申请实施例以视频片段剪切方法由终端执行为例来进行说明，具体的，由集成在终端中的视频片段剪切装置来执行。如图1b所示，该视频片段剪切方法的具体流程可以如下：

101、获取原始视频的视频帧序列和音频帧序列。

其中，视频帧序列可以包括至少一个视频帧，每个视频帧为一幅静态画面。

其中，音频帧序列可以包括至少一个音频帧，音频帧为一定市场的音频信息。

本申请实施例中，获取音视频帧序列的方式有多种，比如，可以从本地存储中直接获取原始视频的视频帧序列和音频帧序列，也可以通过网络从其他设备获取，比如，在一实施例中，可以从服务器中获取视频帧序列和音频帧序列。

在一实施例中，为了提升视频片段剪切方案的通用性和可靠性，可以由终端自己对视频文件进行解码得到，比如，步骤“获取原始视频的视频帧序列和音频帧序列”，可以包括：

对原始视频的视频文件进行解封装处理，得到独立的纯视频流和纯音频流；

分别对纯视频流和纯音频流进行解码，得到视频帧序列和音频帧序列。

例如，参考图1c，对原始视频文件进行解封装和音视频解码处理，可以得到纯视频帧、纯音频帧。

其中，原始视频文件封装格式不做限定，比如，目前广泛应用的视频封装格式为mp4(Moving Picture Experts Group 4，动态图像专家组)，ts，mkv等。在一实施例中可以使用解封装软件对这些主流封装格式进行解封装。比如，使用ffmpeg(Fast Forward Mpeg)或第三方的软件工具均可对这些主流封装格式进行解封装，得到纯视频流和纯音频流。接下来解码软件如可使用ffmpeg或者第三方的工具软件分别对纯视频流和纯音频流解码，得到可供处理的视频帧数据和音频帧数据。

102、对音频帧序列进行特征提取，得到音频特征信息。

其中，音频特征信息可以包括底层物理样本层、中间层声学特征层、顶层语义层上的音频特征等，为了提升视频片段剪切的准确性，本申请实施例中音频特征信息可以包括声学特征，即中间层声学特征层上的特征。

不同的音频类型虽然有不同的内在特征，但总的来说可以将这些特征分为三层，参考图1d所示的音频内容分层描述模型：底层物理样本层、中间层声学特征层、顶层语义层。音频内容呈现的流媒体形式在底层的物理样本层，如采样率、通道数、码率等参数形式。音高音色、曲纹声纹、旋律节奏等声学特征可用于语音或音频的识别与检测。顶层语义层是音频内容、音频对象语义层面的描述。可见从底层到顶层，内容也越来越抽象。本申请实施例的音频特征可以都集中在声学特征层，如感知特征、声学特征。

其中，声学特征层的音频特征可以包括：感知特征和声学特征，其中感知特征可以包括音色、音调、音频指纹、声纹、旋律特征、音频节拍等等；声学特征可以包括：能量、过零率、语音的线性预测系数(Linear Prediction Coefficient，LPC)系数等等。

其中，音乐节拍：通常用BPM(BeatPer Minute，每分钟节拍数)来表征，是音乐的一种基本属性，是音乐速度的量化指标，同时反映出音乐的气氛。BPM越大的音乐让人感觉音乐速度快，能表达出激情热烈的气氛；BPM越慢的音乐让人感觉速度慢，能表达出舒缓悠扬的气氛。

参考图1c，在得到纯音频帧数据之后，可以对纯音频帧数据进行音乐特征提取，得到声学特征层的音频特征。

103、根据音频特征信息对音频帧序列中的关键音频片段进行识别，得到至少一个关键音频片段对应的视频时间信息。

其中，关键音频片段包括至少一个音频帧，该关键音频片段可以为视频中关键视频内容对应的关键音频片段，其中，关键视频内容可以根据实际需求设定，比如，关键视频内容可以为用户可能感兴趣的视频内容。比如，关键视频音频片段可以为某个节目视频中用户感谢兴趣情节内容对应的音频片段。

一般来说，视频节目会根据情节选取切合其情节气氛的音乐作为该单元的背景音乐，也即视频中关键情节部分通常伴随着一个完整的背景音乐片段，并且该音乐片段的特征也异于视频其他时段对应的音乐片段特征。本申请实施例可以对视频中背景音乐的音频特征进行提取，基于音频特征从背景音乐中确定关键音频片段，基于关键音频片段来捕获关键视频片段。

本申请实施例中，视频时间指的是原始视频的播放时间，例如一个45分钟时长的视频，视频时间可以30:00等；音频时间指的原始视频的音频的播放时间，比如，视频的背景音乐的播放时间，譬如一个2分钟的背景音乐，音频时间可以为第65秒。

其中，关键音频片段对应的视频时间信息可以包括关键音频片段对应的视频时间点，如起止视频时间点，即起始视频时间点、终止视频时间点。其中，起止视频时间点可以为关键音频片段开始播放、终止播放的视频时间点，也可以根据实际需求设定，比如，关键音频片段开始播放的前1秒的视频时间点等等。

例如，参考图1c，在提取音频特征之后，可以基于音频特征对音频帧序列进行关键音频片段识别或内容分割，得到至少一个关键音频片段及其对应的视频时间信息。

其中，基于音频特征信息对关键音频片段识别或分割的方式有多种，具体地如下：

(1)、基于音频指纹的识别：

比如，在一实施例中，步骤“根据音频特征信息对音频帧序列中的关键音频片段进行识别，得到至少一个关键音频片段对应的视频时间信息”，可以包括：

根据音频帧序列生成至少两个采样视频时间点的音频指纹；

基于采样视频时间点对应的音频指纹，对音频帧序列中的关键音频片段进行识别；

当关键音频片段识别成功时，获取关键音频片段对应的起止视频时间点，得到至少一个关键音频片段对应的起止视频时间点。

在一实施例中，为了提升音频片段和视频片段剪切的效率，终端可以一边解码一边生成音频指纹进行关键音频片段识别，比如，获取当前解码得到的音频帧序列，基于解码得到音频帧序列生成至少两个采样视频时间点的音频指纹，并，基于音频指纹进行关键音频识别。

其中，音频指纹可以通过特定的算法将一段音频中独一无二的数字特征以标识符的形式表示，即为音频标识。

其中，采样视频时间点可以根据实际需求设定，比如，每隔预定时长如10ms(毫秒)生成一个视频时间点的音频指纹，此时，可以生成10ms、20ms、30ms……的音频指纹。

其中，音频指纹的生成方式有多种，比如，在一实施例中，为了提升音频指纹的准确性，步骤“根据音频帧序列生成至少两个采样视频时间点的音频指纹”，可以包括：

将音频帧序列中每个音频帧对应的音频信号变换到频域，得到频域数据；

从音频频谱数据中选择位于预设频率范围内的目标音频数据；

将目标音频数据分解成至少两个子带；

基于每个子带之间的差分信息，生成采样视频时间点的音频指纹，得到至少两个采样视频时间点的音频指纹。比如，可以将每个子带之间的差分值编码成1或0，以生成子指纹，基于子指纹生成采样视频时间的音频指纹，其中，差分值用来标记子带间的递增递减性，子指纹为构成音频指纹(即大指纹)的指纹。

其中，预设频率范围可以为300Hz到2000Hz(赫兹)，或者仅取300Hz或者2000Hz。

在一实施例中，为了提升音频指纹的精确性，可以基于bark(喊声)尺度将目标音频数据分解成至少两个子带，如33个子带，每个子带宽刚好是一个音分。

例如，终端可以先将每帧信号通过傅里叶变换变换到频域，然后取频谱的300Hz和2000Hz数据通过bark尺度分解成33个子带，每个子带的带宽刚好是一个音分。根据每个子带之间的差分值来编码成1或者0。这样就生成了一个32比特的子指纹。本申请实施例中一个指纹由256个子指纹(大概3s)组成。

在一实施例中，还可以基于音频帧的状态来生成指纹，具体地，步骤“根据音频帧序列生成至少两个采样视频时间点的音频指纹”，可以包括：

将音频帧序列中每个音频帧对应的音频信号变换到频域，得到频域数据据；

基于频域帧数据生成表征每个音频帧状态的状态序列；

基于状态序列生成采样视频时间点的音频指纹，得到至少两个采样视频时间点的音频指纹。

比如，可以通过计算短时傅里叶变换后频域帧数据的梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient,MFCC)和HMM(隐马尔可夫模型)建立音频模型。其中HMM用于创建标识音频每帧的状态序列，一个音频可以通过有序的状态集合进行表示。查询的时候通过维特比算法找出每帧最相似的状态。本申请实施例可以将转换后频域帧数据输入至训练后HMM模型，以生成音频帧的状态序列。

其中，基于音频指纹识别关键音频片段的方式有多种，比如，在一实施例中，可以确定目标视频时间段，基于目标视频时间段内采样视频时间点对应的音频指纹，对音频帧序列中的关键音频片段进行识别；当关键音频片段识别成功时，将目标视频时间段对应的起止视频时间点作为关键音频片段对应的起止视频时间点。

比如，可以预先生成视频的关键音频片段的指纹，后续将目标视频时间段内的音频指纹与预先生成的指纹匹配，从而识别关键音频片段。具体地，步骤“基于目标视频时间段中采样视频时间点对应的音频指纹，对目标视频时间段对应的音频片段进行关键音频片段识别”，可以包括：

将目标视频时间段中采样视频时间点对应的音频指纹，与预设关键音频片段中采样音频时间点的音频指纹进行匹配，得到匹配结果；

基于匹配结果确定所确定目标视频时间段对应的音频片段是否为关键音频片段。

其中，目标视频时间段可以为需要识别其对应的音频片段为关键音频片段的视频时间段，可以根据实际需求设定，比如，可以通过滑动视频时间窗口来确定目标视频时间段，比如，可以在视频的视频时间上通过滑动视频时间窗口来确定目标视频时间段，该窗口的长度可以根据实际需求设定。

其中，匹配结果可以包括目标视频时间段内每个音频指纹的匹配结果，此时，可基于目标视频时间段内每个音频指纹的匹配结果确定是否为关键音频片段，比如，指纹匹配成功的数量来确定。

在一实施例中，目标视频时间段内的音频指纹可以一起匹配，也可以逐个匹配，比如，在边解码边识别的情况下，可以实时对新解码生成的位于视频时间段内的音频指纹进行识别等。

譬如，为了提升识别的效率，在一实施例中，可以每个预设时间段将目标视频时间段中采样视频时间点对应的音频指纹，与预设关键音频片段中采样音频时间点的音频指纹进行匹配。

在一实施例中，还可以无需预先确定目标视频片段，可以将每个采样视频时间点的音频指纹，与预设关键在音频的指纹进行匹配，基于匹配结果识别关键音频片段。具体地，步骤“基于采样视频时间点对应的音频指纹，对音频帧序列中的关键音频片段进行识别”，可以包括：

将采样视频时间点对应的音频指纹，与预设关键音频片段中采样音频时间点的音频指纹进行匹配，得到匹配结果；比如，可以依次将采样视频时间的音频指纹进行匹配；

基于匹配结果确定音频帧序列中的关键音频片段。

比如，可以基于匹配成功的音频指纹确定音频帧序列中的关键音频片段，可以基于指纹匹配的数量来确定是否存在关键音频片段，比如，当连续存在预定数量的匹配成功音频指纹时，确定音频帧序列存在关键音频片段，根据匹配成功音频指纹对应的视频时间点获取关键音频片段对应的起止视频时间点。

在一实施例中，可以为了提升识别效率和准确性，可以间隔预定时间对采样视频时间点的音频指纹进行识别，例如，每隔预设时间将采样视频时间点对应的音频指纹，与预设关键音频片段中采样音频时间点的音频指纹进行匹配等。

本申请实施例中基于音频指纹的关键帧识别或分割，可以由终端自己执行，也可以发送到服务器执行，比如，步骤“基于采样视频时间点对应的音频指纹，对音频帧序列中的关键音频片段进行识别”，可以包括：

每隔预设时间段向服务器发送识别请求，识别请求携带采样视频时间点对应的音频指纹；

接收服务器基于识别请求返回的音频指纹的指纹识别结果；

基于指纹识别结果识别音频帧序列中的关键音频片段。

例如，终端可以每隔预定时间向服务器发送携带指纹的识别请求，服务器可以将音频指纹与预设关键音频片段中采样音频时间点的指纹进行匹配，向终端返回匹配结果。此时，指纹识别结果包括指纹匹配结果，指纹识别结果或匹配成功结果包括识别、匹配成功，或者识别匹配失败等。

在一实施例中，考虑到视频节目中的背景音乐/音频数据一般都会混合旁白、对话等非背景音乐信息，也就是降低了音频信号的信噪比，导致识别大概率不会一遍成功，所以该识别的请求可能会循环多次。比如，步骤“基于采样视频时间点对应的音频指纹，对音频帧序列中的关键音频片段进行识别”，可以包括：

接收服务器基于识别请求返回的关键片段识别结果；服务器可以将采样视频时间点对应的音频指纹、与预设关键片段的音频指纹进行匹配，得到关键片段识别结果，并返回给终端。

方法还包括：当关键音频片段识别失败，且满足预设循环请求条件时，返回执行每隔预设时间段向服务器发送识别请求的步骤。比如，在一实施例中，可以返回音频指纹生成步骤、并重新发送失败请求。

在一实施例中，当关键片段识别成功时，服务器还可以返回音频属性信息(如名称、音频的气氛属性即歌曲是舒缓柔和的还是热情激烈)、以及关键音频片段的时间信息。

其中，预设循环请求条件可以为识别请求循环的条件，可以根据实际需求设定，比如，预设循环条件可以包括：指纹识别失败的原因为预设原因(如请求超时、网络等原因)，或者当前识别请求的请求次数未超过预设次数。

例如，参考图2a，终端可以获取音频帧数据，然后，对数据进行音频帧信号处理生成声音指纹(可以称为曲纹)，提交声音指纹到服务器请求识别结果；接收服务器返回的指纹识别结果，若识别失败，则确定识别原因是否为超时或当识别次数是否超过预定的识别次数；当未超时或未超过预定识别次数时，返回音频信号处理重新生成声音指纹，然后，重新提交声音指纹到服务器请求识别结果；当超时或超过预定识别次数时，确定识别完成；此外，在请求失败时还提示失败信息。

在一实施例中，考虑到关键音频片段的识别具有时间上的滞后性，比如，在请求服务器识别的情况下，识别结果可能是多次识别请求后返回的，那么此时，识别到关键音频片段就不准确，导致获取的关键音频片段的视频时间也不准确，那么最终会导致视频片段剪切不精准。

为了提升关键视频片段剪切的准确性，本申请实施例可以对识别到的关键音频片段的视频时间信息进行回溯；具体地，步骤“获取关键音频片段对应的起止视频时间点，得到至少一个关键音频片段对应的起止视频时间点”，可以包括：

获取识别到的关键帧片段对应的原始起止视频时间点；

根据预设关键音频片段对应的音频时间信息(如起止音频时间点)，对原始起止视频时间点进行回溯，得到至少一个关键音频片段对应的起止视频时间点。具体地，可以基于预设关键音频片段对应的音频时长，对原始起始视频点进行回溯。

例如，参考图2b，在请求服务器识别关键音频片段的情况下，通过识别请求识别到的关键音频片段的起始视频时间明显晚于背景音乐的实际播放时间；此时，本申请实施例可以进行回溯。

譬如，关键音频片段对应的起始音频时间为30s-60s，假如识别到关键音频片段的起止视频时间点1：1：35s-1:1：60s，此时，可以根据音频时长30将关键音频片段的起止视频时间点调整为1：1：30s-1:1:60s。

(2)、基于音频特征分割或识别

比如，一实施例中，步骤“根据音频特征信息对音频帧序列中的关键音频片段进行识别，得到至少一个关键音频片段对应的视频时间信息”，可以包括：

基于音频特征信息确定音频帧序列中音频特征变化时间点；在一实施例中，音频特征信息可以视频的视频时间点对应的音频特征信息；

基于音频帧序列对应的音频特征变化时间点，对音频帧序列进行关键音频片段分割，得到至少一个关键音频片段对应的视频时间信息。

其中，音频特征变化时间点为音频帧序列中音频特征发生变化的视频时间点。

一般来说，视频中内容场景变化都会伴随着音频如背景音乐的变化，比如，某个时刻的音频信号是否相对于上一阶段的音频信号发生了突变，那么这个时刻就是视频场景切换的时刻。如从一个叙事的场景(柔和的音乐)切换到一个激烈的场景(快节奏的音乐)，那么该时刻就可能是关键片段的起始时刻。如果知道了下一个切换时刻，这个时间区间内的视频就是一个完整的关键视频片段。

因此，本申请实施例可以基于音频特征信息分析或确定音频变化时间点，从而分割或识别出关键音频片段。由于该过程没有任何的先验信息做参考，完全由视频中的音频如背景音乐音频信号来决定判决，所以属于盲特征分析，可以整个过程可以称为音频盲特征分析。

其中，音频特征信息可以包括上述介绍的声学特征中间层上的特征，可以包括：多维度声学特征，即声学特征中间层上多个维度的声学特征，比如，可以包括：音频节奏特征、能量、语音场景特征(如是否有对话语音)、音色特征等等。

为了提升音频特征变化时间点确定的准确性，提升关键视频片段剪切的精准性，在一实施例中，可以对每个视频时间点的多维度声学特征进行短时、长时分析，以确定音频特征变化时间点。具体地，音频特征信息包括：每个视频时间点对应的多维度声学特征；步骤“基于音频特征信息确定音频帧序列中音频特征变化时间点”，可以包括：

对长时分析结果和短时分析结果进行融合，得到视频时间点的目标分析结果；

基于目标分析结果确定音频帧序列中音频特征变化时间点。

其中，长时特征变化分析指的是对较长的时间内的音频特征进行变化分析，；短时特征变换分析指的是对较短的时间内的音频特征进行变化分析；长时是相对于短时来说的，比如，比如，对T1时间段内的音频特征进行分析，对T2时间段内的音频特征进行分析，当T1大于T2时，前面分析即为长时分析，后面分析为短时分析。

本申请实施例，可以音频盲特征分析，通过计算一系列音频特征参数，分别记录其长时和短时的变化情况，从而得出音频特征变换时间点。

在一实施例中，步骤“针对每个音频时间点，对视频时间点对应的多维度声学特征进行短时分析、长时分析，得到每个视频时间点对应的长时分析结果、短时分析结果”，可以包括：

确定视频时间点对应的长时视频时间窗口、短时视频时间窗口；

对长时视频时间窗口内视频时间点对应的多维度声学特征进行特征变化分析，得到视频时间点对应的长时分析结果；

对短时视频时间窗口内视频时间点对应的多维度声学特征进行特征变化分析，得到视频时间点对应的短时分析结果。

其中，长时、短时视频时间窗口的长度可以根据需求设定。

其中，长、短时分析之间的时序可以有多种，比如，可以先后，也可以同时执行。

比如，在长时分析时，终端可以针对长时视频时间窗口内每个维度上的声学特征进行音频特征变化分析，得到每个维度的分析结果；然后，将每个维度的分析结果进行融合，得到视频时间点对应的长时分析结果。

同样，在短时分析时，终端可以针对短时视频时间窗口内每个维度上的声学特征进行音频特征变化分析，得到每个维度的分析结果；然后，将每个维度的分析结果进行融合，得到视频时间点对应的短时分析结果。

在一实施例中，长、短时分析结果可以包括视频时间点为声学特征变化时间点的长、短时得分；

此时，在长短时分析中，可以根据每个维度的分析结果对视频时间点进行打分，得到视频时间点为声学特征变化时间点的长、短时得分。

在一实施例中，步骤“对长时视频时间窗口内视频时间点对应的多维度声学特征进行分析，得到视频时间点对应的长时分析结果”，可以包括：

对长时视频时间窗口内视频时间点对应的多维度声学特征进行分析，得到在每个维度上视频时间点为声学特征变化时间点的得分；

对每个维度上视频时间点为声学特征变化时间点的得分进行融合，得到视频时间点为声学特征变化时间点的长时得分。

在一实施例中，步骤“对短时视频时间窗口内视频时间点对应的多维度声学特征进行分析，得到视频时间点对应的短时分析结果”，可以包括：

对短时视频时间窗口内视频时间点对应的多维度声学特征进行分析，得到在每个维度上视频时间点为声学特征变化时间点的得分；

对每个维度上视频时间点为声学特征变化时间点的得分进行融合，得到视频时间点为声学特征变化时间点的短时得分。

本申请实施例在得到长时得分、短时得分之后，可以对二者进行融合，得到视频时间点的最终得分，然后，基于最终得分确定该视频时间点十分为特征变化的时间点。其中，得分融合的方式有多种，为了提升得分计算的准确性，提升特征变化时间点确定的准确性，可以采用加权的方式来融合；比如，步骤“对长时分析结果和短时分析结果进行融合，得到视频时间点的目标分析结果”，可以包括：获取长时得分对应的第一权重，以及短时得分对应的第二权重；基于第一权重和第二权重，对长时得分和短时得分进行加权处理，得到加权后得分。

此时，步骤“基于目标分析结果确定音频帧序列中声学特征变化时间点”，可以包括：将加权后得分与预设阈值进行对比，并根据对比结果确定音频帧序列中声学特征变化时间点。如大于预设阈值确定为变化时间点、反之不为声学特征变换时间点。

参考图2c，音频盲特征分析的过程如下，从音频帧数据中检测视频时间点的多个维度的声学特征，如音频节奏、能量、语音场景、音色等特征检测，然后，分别对各个维度的声学特征进行长时分析、短时分析，然后，将长短时分析结果融合，基于融合后结果确定视频时间点是否为盲特征变换时间点。

其中，音频节奏的检测方式有多种，比如，在一实施例中，可以包括：对音频帧序列进行预处理；基于短时傅里叶变换，将音频帧序列中音频帧从时域变换到频域，得到频域帧序列；对频域帧之间做双分差处理，得到处理结果；对处理进行平滑处理，得到平滑处理后频域帧；对平滑处理后频域帧进行峰值检测，得到音频节奏信息。

例如，计算音乐的节奏信息为例，音乐节奏检测的算法流程如下：

音频时域前处理，包括降采样处理和加窗处理；

短时傅里叶变换，从时域分析转到频域分析；

频域帧之间做双差分处理，结果再进行平滑，最后进行峰值检测得到节奏(BPS)值。

本申请实施例，在得到音频特征变化时间点以及下一个音频特征变化时间点之后，可以基于这两个时间点分割出关键音频片段，然后，基于关键音频片段的起始、终止视频信息就能够剪切出相应的视频片段。

(3)、音频指纹识别、音频特征变换分析结合，也即上述两种方式相结合。

比如，在一实施例中，可以先生成音频指纹进行关键音频片段识别，当识别成功时，采用识别到关键音频片段的视频时间信息剪切关键视频片段；当识别失败时，可以采用上述(2)基于音频特征分析特征变化时间点的方式，分割关键音频片段，基于关键音频片段的视频信息剪切关键视频片段。具体地的指纹识别、音频特征分析方式可以参考上述具体的描述。

比如，在上述(2)方式的基础上，在对音频帧序列进行特征提取，得到音频特征信息之前，方法还包括：

根据音频帧序列生成至少两个采样视频时间点的音频指纹；

当关键音频片段识别失败时，执行对音频帧序列进行特征提取的步骤。

例如，参考图2d，图1c所示的音频特征提取模块的流程为：根据音频帧数据生成音频指纹如歌曲指纹(简称曲纹)，采用上述(1)的方式进行曲纹识别，若成功，则进入后续音频、视频片段剪切步骤，若失败则，采用上述(2)的音频盲特征分析方式确定音频特征变化时间点，进入后续音频、视频片段剪切步骤。

104、根据关键音频片段对应的视频时间信息，对视频帧序列进行剪切，得到至少一个关键视频片段。

比如，可以根据关键音频片段对应的起始、终止视频时间点，对视频帧序列进行剪切，得到至少一个关键视频片段。

例如，参考图1c，在音频内容分割之后可以一个或者多个关键音频片段及其对应的视频时间信息(起止视频时间)；然后，根据关键音频片段的视频时间信息对视频帧序列进行剪切，得到一个或者多个关键视频片段。

在一实施例中，为了提升关键视频剪切的精准性，还可以在剪切之前对关键音频片段进行筛选，比如，可以基于关键音频片段的气氛属性信息，从关键音频片段中选择目标关键音频片段，采用目标关键音频片段对应的视频时间信息剪切关键视频片段；例如，采用上述(2)根据音频特征变化时间点以及下一次音频特征变化时间点，就能得到一个音频片段；再根据剪切视频的节目特点，最终从多个音频片段中得到少量切合气氛的音频片段。根据这些音频片段的起始时间和终止时间信息就能够剪切出相应的视频片段。

在一实施例中，在经过剪切得到关键音频片段对应的关键视频片段之后，还可以对关键音频片段与其对应的关键视频片段进行合成，得到剪切后的视频文件；具体地，可以对关键音频片段与其对应的关键视频片段进行编码合成。例如，参考图1c，可以将关键音频片段1与对应的视频片段1进行合成，的到剪切后的视频文件1等等。

本申请实施例提供的视频片段剪切方法可以应用在需要剪切视频片段的场景中，比如，可以应用在视频剪切应用或客户端中，参考图3a，在打开视频剪切应用之后，用户可以导入需要剪切的视频文件，显示剪切页面，该剪切页面包括人工剪切控件和自动剪切控件，当用户对自动剪切控件进行触发操作时，如点击自动剪切按钮时，视频剪切应用可以上述介绍的剪切方式剪切出关键视频片段，显示剪切结果页面，该页面包括剪切的关键视频片段对应的画面以及时间信息，如片段1、2、3等。之后，用户可以对关键视频片段进行后续操作，如将某个关键视频片段作为某个应用的视频海报、视频详情介绍等。当用户对人工剪切控件进行触发操作如点击人工剪切按钮时进入人工剪切片段的流程，如展示视频的视频帧序列，剪切人员通过观察手动剪切视频片段。

例如，参考图3b，可以将剪切的关键视频片段1、2、3在视频播放应用中用作海报展示、视频详情介绍页展示等，使用户在不点击播放长视频的前提下能对视频大概内容及其精彩程度有大致的了解。

由上可知，本申请实施例可以获取原始视频的视频帧序列和音频帧序列；对音频帧序列进行特征提取，得到音频特征信息；根据音频特征信息对音频帧序列中的关键音频片段进行识别，得到至少一个关键音频片段对应的视频时间信息；根据关键音频片段对应的视频时间信息，对视频帧序列进行剪切，得到至少一个关键视频片段。该方案可以基于视频的音频特征识别关键音频片段，并基于视频的关键音频片段来自动捕获完整性较强的关键视频片段，避免了人工剪切速度慢、花费时间长多、以及问题，从而提升了视频片段剪切的效率。

此外，该方案由于采用关键音频片段的视频时间信息可以剪切出完整的视频片段，避免了深度学习剪切方式导致视频片段的完整性较低的问题，比如，参考图3c，采用剪切出的视频帧无法组合成一个完整的视频片段；本申请实施例基于音乐特征提取分割的视频自动剪切关键片段，剪切后的视频内容完整性(音频完整性，情节完整性)都会比较好；而且避免其他自动剪切方法得到的视频出现的场景割裂甚至帧数据断裂，音频不连续等现象。

根据上述介绍的内容，下面将举例来进一步说明本申请的视频片段剪切方法。

本申请实施例，将以视频片段剪切装置集成在终端，且关键音频片段采用上述(1)(2)的结合方式来说明。

参考图4，一种视频片段剪切方法，具体流程如下：

401、终端对原始视频的视频文件进行解封装、解码处理，得到视频帧序列和音频帧序列。

例如，终端可以通过解码解封装软件对视频文件进行解封装、解码处理。

以视频剪切应用中剪切片段为例，用户可以打开视频剪切应用，将待剪切的视频文件导入至应用进行剪切，或者，视频剪切应用可以从服务器侧获取待剪切的视频文件进行剪切。

402、终端根据音频帧序列生成至少两个采样视频时间点的音频指纹。

其中，音频指纹如歌曲指纹的生成方式可以参考上述描述，比如，将每帧信号通过傅里叶变换变换到频域，然后取频谱的300Hz和2000Hz数据通过bark尺度分解成33个子带，每个子带的带宽刚好是一个音分。根据每个子带之间的差分值来编码成1或者0，差分值用来标记子带间的递增递减性。这样就生成了一个32比特的子指纹。一个指纹由256个子指纹(大概3s)组成。

403、终端基于采样视频时间点对应的音频指纹，对音频帧序列中的关键音频片段进行识别，当未识别到关键音频片段执行步骤404，当识别到关键音频片段执行步骤409。

其中，关键音频片段的识别方式可以参考上述实施例的描述，比如，终端可以向服务器发送携带音频指纹的识别请求，通过服务器来识别音频帧序列的关键音频片段，从服务器接收返回的识别结果。

当识别到关键音频片段时，则只需步骤409，基于关键音频片段的起止视频时间点剪切关键视频片段。

当未识别到关键音频片段时，即识别失败时，例如，服务器侧不存在关键音频片段的音频指纹等会导致识别失败，此时，可以基于音频特征信息确定音频特征变化时间点，来分割关键音频片段，即采用音频盲特征分析方式切割音频片段。

404、终端对音频帧序列进行特征提取，得到每个视频时间点对应的多维度声学特征。

参考图1d，其中，多维度声学特征可以为声学特征层上的特征，比如，可以包括音频节奏特征、能量、语音场景特征(如是否有对话语音)、音色特征等等特征中的至少两种。

其中，各维度声学特征的提取和介绍可以参考上述实施例的描述。

405、终端针对每个视频时间点，对视频时间点对应的的多维度声学特征进行短时特征变化分析、长时特征变化分析，得到每个视频时间点对应的长时分析结果、短时分析结果。

例如，参考图2c，从音频帧数据中检测视频时间点的多个维度的声学特征，如音频节奏、能量、语音场景、音色等特征检测，然后，分别对各个维度的声学特征进行长时分析、短时分析，然后，将长短时分析结果融合，基于融合后结果确定视频时间点是否为盲特征变换时间点。

其中，短时分析、长时分析的具体方式可以参考上述实施例描述。

406、终端对长时分析结果和短时分析结果进行融合，得到视频时间点的目标分析结果。

其中，目标分析结果可以包括视频时间点为声学特征变化时间点的分析结果，如包括得分、或概率等。

407、终端基于目标分析结果确定音频帧序列中音频特征变化时间点。

例如，目标分析结果可以包括视频时间点为声学特征变化时间点的得分、或概率时，如果得分或概率大于预设阈值时确定为声学特征变化时间点，反之确定部位声学特征变化时间点。

408、终端根据音频特征变化时间点对音频帧序列进行分割，得到关键音频片段及其对应的起止视频时间点。

比如，根据音频特征变化时间点以及下一次音频特征变化时间点，可以从音频帧序列中得到一个音频片段，在一实施例中，还可以根据剪切视频的节目特点，最终从多个音频片段中选择少量切合气氛的音频片段。利用选择的音频片段的起始时间和终止时间信息就能够剪切出相应的视频片段。

409、终端根据关键音频片段的起止视频时间点对视频帧序列进行剪切，得到关键音频片段对应的关键视频片段。

比如，当采用音频指纹识别成功时，为了提升视频片段的剪切的准确性，还可以对关键音频片段的起止视频时间点进行回溯。具体地，回溯方式可以参考上述实施例描述。

410、终端对关键音频片段、以及与其对应的关键视频片段进行合成，得到剪切后的视频文件。

在一实施例中，终端还可以存储剪切后的视频文件，如将剪切后的视频文件、关键音频片段、关键视频片段等存储至区块链中。

例如，在视频剪切应用基于上述方法剪切出关键视频片段之后，视频剪切应用还可以显示剪切结果，如关键视频片段(如关键视频片段的封面)、时间信息；在一实施例中，还可以包括关键视频片段的处理控件等。

经过上述方式剪切后的关键视频片段，可以应用在各种产品中，比如视频播放应用的海报展示、视频详情介绍页面展示；阅读应用的广告展示等等。

由上可知，本申请实施例考虑到视频节目会根据情节选取切合其情节气氛的音乐作为该单元的背景音乐，所以音乐的完整性可以保证视频内容的完整性(即背景音乐的开始时间点就是该情节单元的开始，结束时间点就是该情节单元的结束)。提供了一种方案对视频中的音乐特征进行提取筛选，进而定位到关键片段音乐出现的起始点和终止点，准确剪切出对应的视频片段。

本申请实施例方案可以提高关键视频剪切的成功率，大大减少人工筛选的工作量；基于音乐特征提取分割的视频自动剪切关键片段，剪切后的视频内容完整性(音频完整性，情节完整性)都会比较好。避免其他自动剪切方法得到的视频出现的场景割裂甚至帧数据断裂，音频不连续等现象。

为了更好地实施以上方法，相应的，本申请实施例还提供一种视频片段剪切装置，该视频片段剪切装置可以集成在终端中，参考图5a，该视频剪切装置可以包括获取单元501、特征提取单元502、特征提取单元503、以及剪切单元504：

获取单元501，用于获取原始视频的视频帧序列和音频帧序列；

特征提取单元502，用于对音频帧序列进行特征提取，得到音频特征信息；

识别单元503，用于根据音频特征信息对音频帧序列中的关键音频片段进行识别，得到至少一个关键音频片段对应的视频时间信息；

剪切单元504，用于根据关键音频片段对应的视频时间信息，对视频帧序列进行剪切，得到至少一个关键视频片段。

在一实施例中，参考图5b，识别单元503，包括：

指纹生成子单元5031，用于根据音频帧序列生成至少两个采样视频时间点的音频指纹；

识别子单元5032，用于基于采样视频时间点对应的音频指纹，对音频帧序列中的关键音频片段进行识别；

时间获取子单元5033，用于当关键音频片段识别成功时，获取关键音频片段对应的起止视频时间点，得到至少一个关键音频片段对应的起止视频时间点。

在一实施例中，识别子单元5032，用于：

基于匹配结果确定音频帧序列中的关键音频片段。

在一实施例中，时间获取子单元5033，用于获取识别到的关键帧片段对应的原始起止视频时间点；根据预设关键音频片段对应的音频时间信息，对原始起止视频时间点进行回溯，得到至少一个关键音频片段对应的起止视频时间点。

在一实施例中，指纹生成子单元5031，用于：

将目标音频数据分解成至少两个子带；

在一实施例中，指纹生成子单元5031，用于：

基于频域帧数据生成表征每个音频帧状态的状态序列；

在一实施例中，识别子单元5032，用于：每隔预设时间段向服务器发送识别请求，识别请求携带采样视频时间点对应的音频指纹；接收服务器基于识别请求返回的关键片段识别结果；当关键音频片段识别失败，且满足预设循环请求条件时，返回执行每隔预设时间段向服务器发送识别请求的步骤。

在一实施例中，参考图5c，识别单元503，包括：

确定子单元5034，用于基于音频特征信息确定音频帧序列中音频特征变化时间点；

分割子单元5035，用于基于音频帧序列对应的音频特征变化时间点，对音频帧序列进行关键音频片段分割，得到至少一个关键音频片段对应的视频时间信息。

在一实施例中，视频片段剪切装置，特征提取单元502，用于：

根据音频帧序列生成至少两个采样视频时间点的音频指纹；

当关键音频片段识别失败时，对音频帧序列进行特征提取，得到音频特征信息。

在一实施例中，音频特征信息包括：每个视频时间点对应的多维度声学特征；确定子单元5034，用于：

基于目标分析结果确定音频帧序列中音频特征变化时间点。

在一实施例中，确定子单元5034，用于：

在一实施例中，长时分析结果包括视频时间点为声学特征变化时间点的长时得分；确定子单元5034，用于：

在一实施例中，短时分析结果包括视频时间点为声学特征变化时间点的短时得分；确定子单元5034，用于：

在一实施例中，确定子单元5034，用于：

基于第一权重和第二权重，对长时得分和短时得分进行加权处理，得到加权后得分；

将加权后得分与预设阈值进行对比，并根据对比结果确定音频帧序列中声学特征变化时间点。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

本实施例的视频片段剪切装置，可以基于视频的音频特征识别关键音频片段，并基于视频的关键音频片段来自动捕获完整性较强的关键视频片段，避免了人工剪切速度慢、花费时间长多、以及问题，从而提升了视频片段剪切的效率。

此外，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，如图6所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器601是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器602内的软件程序和/或单元，以及调用存储在存储器602内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器601可包括一个或多个处理核心；优选的，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。

存储器602可用于存储软件程序以及单元，处理器601通过运行存储在存储器602的软件程序以及单元，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602的访问。

计算机设备还包括给各个部件供电的电源603，优选的，电源603可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元604，该输入单元604可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器601会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能，如下：

获取原始视频的视频帧序列和音频帧序列；对音频帧序列进行特征提取，得到音频特征信息；根据音频特征信息对音频帧序列中的关键音频片段进行识别，得到至少一个关键音频片段对应的视频时间信息；根据关键音频片段对应的视频时间信息，对视频帧序列进行剪切，得到至少一个关键视频片段。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本申请实施例涉及的视频片段剪切系统可以是由客户端、多个节点(接入网络中的任意形式的计算机设备，如服务器、终端)通过网络通信的形式连接形成的分布式系统。其中，服务器可以将视频的关键帧数据、视频内容数据等存储至分布式系统如区块链中。

以分布式系统为区块链系统为例，参见图7a，图7a是本申请实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图，由多个节点(接入网络中的任意形式的智能播放设备，如服务器、终端)和客户端形成，节点之间形成组成的点对点(P2P，PeerTo Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission ControlProtocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。本实施例中，视频数据如关键视频片段、关键音频片段等可以通过区域链系统的节点被存储在区域链系统的共享账本中，计算机设备(例如终端或服务器)还可以基于共享账本存储的记录数据获取视频的视频文件、关键视频片段的时间等数据。

参见图7a示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图7b，图7b是本申请实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种视频片段剪切方法中的步骤。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令或计算机程序，可以执行本申请实施例所提供的任一种视频片段剪切方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频片段剪切方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频片段剪切方法、装置、计算机设备和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频片段剪切方法，其特征在于，包括：

获取原始视频的视频帧序列和音频帧序列；

对所述音频帧序列进行特征提取，得到音频特征信息；

2.如权利要求1所述的视频片段剪切方法，其特征在于，根据所述音频特征信息对所述音频帧序列中的关键音频片段进行识别，得到至少一个关键音频片段对应的视频时间信息，包括：

3.如权利要求2所述的视频片段剪切方法，其特征在于，基于采样视频时间点对应的音频指纹，对所述音频帧序列中的关键音频片段进行识别，包括：

基于匹配结果对所述音频帧序列中的关键音频片段进行识别。

4.如权利要求3所述的视频片段剪切方法，其特征在于，获取关键音频片段对应的起止视频时间点，得到至少一个关键音频片段对应的起止视频时间点，包括：

获取识别到的关键音频片段对应的原始起止视频时间点；

根据预设关键音频片段对应的音频时间信息，对所述原始起止视频时间点进行回溯，得到至少一个关键音频片段对应的起止视频时间点。

5.如权利要求2所述的视频片段剪切方法，其特征在于，根据所述音频帧序列生成至少两个采样视频时间点的音频指纹，包括：

从所述频域数据中选择位于预设频率范围内的目标音频数据；

将所述目标音频数据分解成至少两个子带；

基于每个子带之间的差分信息生成采样视频时间点的音频指纹，得到至少两个采样视频时间点的音频指纹。

6.如权利要求2所述的视频片段剪切方法，其特征在于，根据所述音频帧序列生成至少两个采样视频时间点的音频指纹，包括：

基于频域帧数据生成表征每个音频帧状态的状态序列；

7.如权利要求2所述的视频片段剪切方法，其特征在于，基于采样视频时间点对应的音频指纹，对所述音频帧序列中的关键音频片段进行识别，包括：

每隔预设时间段向服务器发送识别请求，所述识别请求携带采样视频时间点对应的音频指纹；

接收所述服务器基于所述识别请求返回的关键片段识别结果；

所述方法还包括：当关键音频片段识别失败，且满足预设循环请求条件时，返回执行每隔预设时间段向服务器发送识别请求的步骤。

8.如权利要求1所述的视频片段剪切方法，其特征在于，根据所述音频特征信息对所述音频帧序列中的关键音频片段进行识别，得到至少一个关键音频片段对应的视频时间信息，包括：

基于所述音频特征信息确定所述音频帧序列中音频特征变化时间点；

基于所述音频帧序列对应的音频特征变化时间点，对所述音频帧序列进行关键音频片段分割，得到至少一个关键音频片段对应的视频时间信息。

9.如权利要求8所述的视频片段剪切方法，其特征在于，在对所述音频帧序列进行特征提取，得到音频特征信息之前，所述方法还包括：

当关键音频片段识别失败时，执行对所述音频帧序列进行特征提取的步骤。

10.如权利要求8或9所述的视频片段剪切方法，其特征在于，所述音频特征信息包括：每个视频时间点对应的多维度声学特征；

基于所述音频特征信息确定所述音频帧序列中音频特征变化时间点，包括：

11.如权利要求10所述的视频片段剪切方法，其特征在于，针对每个音频时间点，对视频时间点对应的多维度声学特征进行短时分析、长时分析，得到每个视频时间点对应的长时分析结果、短时分析结果，包括：

12.如权利要求11所述的视频片段剪切方法，其特征在于，所述长时分析结果包括所述视频时间点为声学特征变化时间点的长时得分；

对所述长时视频时间窗口内视频时间点对应的多维度声学特征进行分析，得到所述视频时间点对应的长时分析结果，包括：

13.一种视频片段剪切装置，其特征在于，包括：

获取单元，用于获取原始视频的视频帧序列和音频帧序列；

14.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-12任一项所述方法的步骤。

15.一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1-12任一项所述方法的步骤。