CN110650374B

CN110650374B - 剪辑方法、电子设备和计算机可读存储介质

Info

Publication number: CN110650374B
Application number: CN201910758773.9A
Authority: CN
Inventors: 马丹; 张健; 张进; 钟宜峰; 莫东松; 赵璐; 马晓琳; 王科
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2022-03-25
Anticipated expiration: 2039-08-16
Also published as: CN110650374A

Abstract

本发明实施例涉及通信技术领域，公开了一种剪辑方法、电子设备和计算机可读存储介质。本发明中，上述剪辑方法包括：根据预设的用于表征视频精彩程度的打分因子，对待剪辑的视频中的各视频片段进行打分，并获取各所述视频片段的分数；对分数大于预设阈值的视频片段进行剪辑，得到剪辑后的视频，可以高效、准确的自动剪辑出视频中的精彩片段，同时还能节省人力。

Description

剪辑方法、电子设备和计算机可读存储介质

技术领域

本发明实施例涉及通信技术领域，特别涉及一种剪辑方法、电子设备和计算机可读存储介质。

背景技术

目前，针对视频直播，用户往往除了全程观看直播视频的需求，还有实时回看精彩视频的需求。相关技术中，直播视频的回放基本采用运维人员手动剪辑精彩视频供用户观看的方式。

然而，发明人发现相关技术中至少存在如下问题：通过运维人员手动剪辑精彩视频片段供用户观看的方式，需要运维人员对视频精彩程度的判定有相当程度的了解，对运维人员的要求相当高，而且通过运维人员手动剪辑很难高效准确的剪辑出视频中的精彩片段。

发明内容

本发明实施方式的目的在于提供一种剪辑方法、电子设备和计算机可读存储介质，使得可以高效、准确的自动剪辑出视频中的精彩片段，同时还能节省人力。

为解决上述技术问题，本发明的实施方式提供了一种剪辑方法，包括以下步骤：根据预设的用于表征视频精彩程度的打分因子，对待剪辑的视频中的各视频片段进行打分，并获取各所述视频片段的分数；对分数大于预设阈值的视频片段进行剪辑，得到剪辑后的视频。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的剪辑方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的剪辑方法。

本发明实施方式相对于现有技术而言，根据预设的用于表征视频精彩程度的打分因子，对待剪辑的视频中的各视频片段进行打分，并获取各视频片段的分数；对分数大于预设阈值的视频片段进行剪辑，得到剪辑后的视频。通过预设表征精彩程度的打分因子，根据打分因子对视频中的各视频片段打分，使得各视频片段的打分分数的高低在一定程度上能够表征视频片段的精彩程度，对打分分数大于预设阈值的视频片段进行剪辑，有利于自动得到精彩程度较高的视频片段。而且，由于本方案中，无需运维人员手动剪辑，有利于节省人力，在可以自动剪辑出精彩视频片段的同时还可以提高剪辑的高效性和准确性。

另外，所述待剪辑的视频中存在现场观众，所述打分因子包括：观众呼声；所述根据预设的用于表征视频精彩程度的打分因子，对待剪辑的视频中的各视频片段进行打分，包括：从所述待剪辑的视频中分离出音频数据；根据所述音频数据，获取各所述视频片段中的观众呼声的特征数据；根据各所述视频片段中的观众呼声的特征数据，对各所述视频片段进行打分。视频中的观众呼声在一定程度上有利于准确的表征视频的精彩程度，因此，根据各视频片段中的观众呼声的特征数据，对各视频片段进行打分，使得各视频片段的分数能够很好的体现出视频片段的精彩程度，从而有利于剪辑得到精彩程度高的视频片段。

另外，各所述视频片段预设有初始分数；所述特征数据包括：声音强度；所述根据各所述视频片段中的观众呼声的特征数据，对各所述视频片段进行打分，包括：获取各所述视频片段中的观众呼声的声音强度和各所述视频片段中的背景音的声音强度的差值；根据各所述视频片段的所述差值，对各所述视频片段进行加分；其中，差值越大的视频片段，加分的分值越大；和/或，所述特征数据包括：所述观众呼声的持续时长；所述根据各所述视频片段中的观众呼声的特征数据，对各所述视频片段进行打分，包括：对各所述视频片段中，所述观众呼声的持续时长超过第一预设时长的视频片段进行加分。观众呼声的声音强度和持续时长能够准确的反映观众呼声的热烈程度，从而准确的体现出视频内容的精彩程度。而且观众呼声的声音强度和背景音的声音强度的差值更能清晰的反映出观众呼声的热烈程度，差值越大的视频片段，加分的分值越大，使得可以很好通过视频片段的分数的高低体现出精彩程度的高低，进一步有利于准确、高效的剪辑得到精彩程度高的视频片段。

另外，所述特征数据包括：所述观众呼声的持续时长，各所述视频片段中的观众呼声的持续时长通过以下方式获取：将所述音频数据划分为若干相同时长的音频样本；其中，所述相同时长小于各所述视频片段的时长；获取各所述音频样本所属的类型；其中，所述类型为：含有观众呼声或不含有观众呼声；根据各所述音频样本的类型，获取各所述视频片段中观众呼声的持续时长。通过若干段小时长的音频样本进行综合判定，以得到大时长的视频片段中观众呼声的持续时长，有利于提高判定结果的精确度，从而有利于得到准确的观众呼声的持续时长。

另外，所述根据各所述音频样本的类型，获取各所述视频片段中观众呼声的持续时长，包括：将各所述音频样本的类型按时间顺序进行组合，并与预设的组合模板进行匹配；其中，所述组合模板包括：用于表征观众呼声的开始时间点的第一组合模板和用于表征观众呼声的结束时间点的第二组合模板；根据匹配的结果获取各所述视频片段中观众呼声的开始时间点和结束时间点；根据各所述视频片段中观众呼声的开始时间点和结束时间点，获取各所述视频片段中观众呼声的持续时长。通过预先制定组合模板并进行匹配的方式，有利于排除干扰降低误差，使得确定的开始和结束时间点更加准确，从而获取准确的观众呼声的持续时长。

另外，所述待剪辑的视频为体育赛事视频，所述体育赛事视频中的各所述视频片段均为比赛进行中的片段。由于，相关技术中，针对体育赛事视频的剪辑基本采用运维人员手动剪辑精彩视频的方式。但针对体育这种专业性强，规则较为独立且可能多路镜头同时剪辑的体育直播赛事类型，通过运维人员手动剪辑很难高效准确的剪辑出视频中的精彩片段。本发明实施方式有利于对体育赛事视频中的精彩片段进行自动、高效、准确的剪辑。而且，由于进行打分的各视频片段均为比赛进行中的片段，即排除了处于比赛间歇的视频片段，有利于对体育赛事视频中处于比赛进行中的有效视频片段进行打分，有利于快速完成对体育赛事视频的打分，从而提高剪辑的效率。

另外，所述体育赛事视频为羽毛球赛事视频，所述打分因子包括：多拍回合状态的持续时长；所述根据预设的用于表征视频精彩程度的打分因子，对待剪辑的视频中的各视频片段进行打分，包括：获取各所述视频片段中羽毛球赛事处于多拍回合状态的持续时长；对各所述视频片段中，所述多拍回合状态的持续时长超过第二预设时长的视频片段进行加分；其中，各所述视频片段预设有初始分数。羽毛球比赛的多拍回合状态的持续时长有利于准确的反映比赛的精彩程度，多拍回合状态的持续时长越长，反映出比赛越精彩。因此，对多拍回合状态的持续时长超过第二预设时长的视频片段进行加分，有利于使精彩程度越高的视频片段得到更高的分数，从而能够作为被选中的片段剪辑出来。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。

图1是根据本发明第一实施方式中的剪辑方法的流程图；

图2是根据本发明第二实施方式中的剪辑方法的流程图；

图3是根据本发明第二实施方式中的“跳杀/跳劈”这一精彩动作的示意图；

图4是根据本发明第二实施方式中的“鱼跃救球”这一精彩动作的示意图；

图5是根据本发明第二实施方式中的“网前斗球”这一精彩动作的示意图；

图6是根据本发明第三实施方式中的剪辑方法的流程图；

图7是根据本发明第四实施方式中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种剪辑方法，应用于电子设备，由电子设备对待剪辑的视频中的精彩视频片段进行剪辑。其中，电子设备可以为手机、电脑、服务器等设备，对此本实施方式不做具体限定。下面对本实施方式的剪辑方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施方式中的剪辑方法的流程图可以如图1所示，包括：

步骤101：根据预设的用于表征视频精彩程度的打分因子，对待剪辑的视频中的各视频片段进行打分，并获取各视频片段的分数。

在一个例子中，待剪辑的视频中可以存在现场观众，比如各类有现场观众观看的比赛视频、访谈视频、综艺视频等，预设的用于表征视频精彩程度的打分因子可以为观众呼声。待剪辑的视频可以被划分为很多视频片段，每段视频片段的时长可以根据实际需要进行设置，可以相同也可以不同，对此本实施方式不做具体限定。另外，各视频片段可以预设有初始分数，初始分数的分值可以根据实际需要进行设置，比如均设置为0分，然而在具体实现中并不以此为限。

具体的说，电子设备可以先从待剪辑的视频中分离出音频数据，然后根据分离出的音频数据，获取各视频片段中的观众呼声的特征数据，接着根据各视频片段中的观众呼声的特征数据，对各视频片段进行打分。另外，可以理解的是，由于待剪辑的视频包括很多视频片段，那么从待剪辑的视频中分离出的音频数据即可以理解为各个视频片段对应的音频数据，也就是说，各视频片段均对应有各自的音频数据。

在一个例子中，观众呼声的特征数据可以为声音强度。电子设备根据各视频片段中的观众呼声的声音强度，对各视频片段进行打分的方式，可以如下：首先，电子设备可以判别音频数据中的背景音和观众呼声，比如可以通过音频卷积对音频数据进行过滤，以判别音频数据中的背景音和观众呼声。然后，电子设备可以检测各视频片段对应的音频数据中的观众呼声的声音强度和背景音的声音强度。接着，获取各视频片段中的观众呼声的声音强度和背景音的声音强度的差值。最后，根据各视频片段的差值，对各视频片段进行加分，其中，差值越大的视频片段，加分的分值可以越大。比如，可以预设加分分值与差值的对应关系，根据对应关系得到各视频片段的差值对应的加分分值。在具体实现中，还可以根据各视频片段中的观众呼声的声音强度从与背景音的声音强度相近，到突然远超过背景音的声音强度的间隔时长对各视频片段进行加分，比如上述间隔时长越长的视频片段的加分分值越大。

在另一个例子中，观众呼声的特征数据可以为观众呼声的持续时长。电子设备根据观众呼声的持续时长，对各视频片段进行打分的方式，可以如下：电子设备可以获取各视频片段中的观众呼声的持续时长，对各视频片段中，观众呼声的持续时长超过第一预设时长的视频片段进行加分。其中，第一预设时长可以根据实际需要进行设置，对此本实施方式不做具体限定。另外，加分时，可以对观众呼声的持续时长超过第一预设时长的各视频片段均加相同的分值，也可以根据观众呼声的持续时长超过第一预设时长的多少确定加分分值，比如超过第一预设时长越多加的分值越多。然而本实施方式对此不做具体限定，在具体实现中，可以根据实际需要选择合适的加分方式。另外，如果一段视频片段中，观众呼声的持续时长未超过第一预设时长或未检测到观众呼声，则基于观众呼声这一打分因子对该段视频片段的打分分数可以维持初始分数不变。

在一个例子中，电子设备获取各视频片段中的观众呼声的持续时长的方式，可以如下：首先，将音频数据划分为若干相同时长的音频样本；其中，相同时长小于各视频片段的时长。另外，音频样本的时长可以设置的很小，比如，将音频数据划分为若干个时长为1秒的音频样本，即每段视频片段对应的音频数据均被划分为若干个时长为1秒的音频样本。然后，可以获取各音频样本所属的类型；其中，音频样本的类型可以为：含有观众呼声或不含有观众呼声。最后，根据各音频样本的类型，获取各视频片段中观众呼声的持续时长。比如，可以获取每段视频片段对应的各音频样本的类型中属于“含有观众呼声”这一类型的音频样本的数量，根据属于“含有观众呼声”这一类型的音频样本的数量和单个音频样本的时长，得到各视频片段中观众呼声的持续时长。通过将音频数据划分为小间隔的音频样本，有利于有对各音频样本的类型进行更精准的判定，以准确的得到大时间段的视频片段中观众呼声的持续时长。

在一个例子中，可以通过以下方式获取各音频样本所属的类型：首先，可以通过模数转换将音频样本转换成数字信号，生成脉冲编码调制(Pulse Code Modulation,简称PCM)二进制文件，即以一定的采样率和采样位数把音频样本对应的连续波形转换成离散的数据点。比如利用多媒体视频处理工具FFmpeg(Fast Forward Mpeg，简称FFmpeg)把mp3音频样本，以16kHz的采样频率转换成16位的单声道PCM文件。将每一段音频样本对应的PCM文件输入预先训练的用于获取音频样本所属的类型的第一神经网络模型，第一神经网络模型可以输出该音频样本所属的类型。

其中，第一神经网络模型预先根据采集的音频数据集训练得到，音频数据集中的音频根据是否含有观众呼声标记有不同的类型。比如，音频数据集中的音频可以为从存在现场观众的视频中分离出来的音频，这些音频也可以被划分为若干时长为1秒的音频样本，对含有和不含有观众呼声的音频样本分别标记不同的类型，对音频数据集中带有类型标记的音频进行训练得到第一神经网络模型。比如，训练第一神经网络模型时可以用字符“0”标记不含有观众呼声的音频样本，用字符“X”标记含有观众呼声的音频样本。那么，第一神经网络模型的输出即为：字符“0”或是字符“X”，当输出为字符“0”时，表明输入的音频样本的类型为不含有观众呼声的音频样本，当输出为字符“X”时，表明输入的音频样本的类型为含有观众呼声的音频样本。需要说明的是，本实施方式中对音频样本的不同类型的标记方式只是以标记“0”和“X”为例，在具体实现中，并不以此为限。

在一个例子中，根据各音频样本的类型，获取各视频片段中观众呼声的持续时长的实现方式可以如下：首先，可以将各音频样本的类型按时间顺序进行组合，并与预设的组合模板进行匹配；其中，组合模板包括：用于表征观众呼声的开始时间点的第一组合模板和用于表征观众呼声的结束时间点的第二组合模板。具体的，可以采用大数据统计的方式来制定组合模板，比如针对存在现场观众的视频，统计观众欢呼的起始点和结束点，并拆分和表达为“0”和“X”组合的模式。比如：预设的第一组合模板可以为‘00XXX’，‘0X0XXX’等，第二组合模板可以为‘XX000’，‘X0X0X00’等。与预设的组合模板进行匹配可以理解为，将一个视频片段中的音频样本的类型对应的字符，按时间顺序进行组合后，将组合中的每一位字符与预设的组合模板中的每一位字符进行对比，查看是否相同。然后，可以根据匹配的结果获取各视频片段中观众呼声的开始时间点和结束时间点。比如，当一个视频片段中的音频样本的类型对应的字符，按时间顺序进行组合得到的类型组合存在‘00XXX’或‘0X0XXX’，可以认为匹配到观众呼声的开始时间点。类似的，当一个视频片段中的音频样本的类型对应的字符，按时间顺序进行组合得到的类型组合存在‘XX000’或‘X0X0X00’，可以认为匹配到观众呼声的结束时间点。最后，根据各视频片段中观众呼声的开始时间点和结束时间点，获取各视频片段中观众呼声的持续时长。

在一个例子中，若在一段视频片段中，观众呼声的声音强度和持续时长均满足相应的加分要求，则可以根据观众呼声的声音强度对该段视频片段进行一次加分操作，同时根据观众呼声的持续时长对该段视频片段再进行一次加分操作，即进行两次加分操作。也就是说，本实施方式中还可以根据观众呼声的不同特征数据对各视频片段进行综合评分。

需要说明的是，本实施方式中的观众呼声的特征数据只是以上述的声音强度和持续时长为例，在具体实现中并不以此为限。

另外，还需要说明的是，本实施方式中的上述各示例均为为方便理解进行的举例说明，并不对本发明的技术方案构成限定。

步骤102：对分数大于预设阈值的视频片段进行剪辑，得到剪辑后的视频。

具体的说，可以先将获取的各视频片段的分数分别与预设阈值进行对比，得到分数大于预设阈值的视频片段。然后，对分数大于预设阈值的视频片段进行剪辑，得到剪辑后的视频。其中，剪辑后的视频可以为一个个单独的视频片段，也可以为将一个个单独的视频片段进行组合后得到的一个视频片段。其中，预设阈值可以根据实际需要进行设置，对此，本实施方式不做具体限定。

在一个例子中，可以采用镜头边缘检测(Shot boundary detection，简称SBD)技术在待剪辑的视频中检测镜头的边界，以避免剪辑时出现不完整镜头。

与现有技术相比，本实施方式，通过预设表征精彩程度的打分因子，根据打分因子对视频中的各视频片段打分，使得各视频片段的打分分数的高低在一定程度上能够表征视频片段的精彩程度，对打分分数大于预设阈值的视频片段进行剪辑，有利于自动得到精彩程度较高的视频片段。而且，由于本方案中，无需运维人员手动剪辑，有利于节省人力，在可以自动剪辑出精彩视频片段的同时还可以提高剪辑的高效性和准确性。

本发明的第二实施方式涉及一种剪辑方法。本实施方式中，主要介绍预设的打分因子包括精彩动作时，如何基于精彩动作对待剪辑的视频中的视频片段进行打分，得到各视频片段的分数，从而对分数大于预设阈值的视频片段进行剪辑，得到剪辑后的视频。下面对本实施方式的剪辑方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施方式中的剪辑方法的流程图可以如图2所示，包括：

步骤201：从待剪辑的视频中分离出图像数据。

其中，分离出的图像数据可以理解为获取的待剪辑的视频中的各视频图像帧。可以理解的是，待剪辑的视频的各视频片段均有各自对应的若干视频图像帧。

步骤202：根据图像数据，对包含精彩动作的视频片段进行加分。

其中，精彩动作可以为：根据实际需要提前预设的一个或多个精彩动作。在一个例子中，待剪辑的视频可以为羽毛球赛事视频，针对羽毛球赛事视频预设的精彩动作可以包括：如图3所示的跳杀/跳劈，如图4所示的鱼跃救球，如图5所示的网前斗球等。其中，由于跳杀和跳劈从动作上不太容易区分，所以可以归为一类。需要说明的是，本实施方式中的待剪辑的视频只是以羽毛球赛事视频为例，且精彩动作也是根据羽毛球赛事的特点给出的几个参考示例，在具体实现中并不以此为限。

具体的说，可以先识别各视频片段中是否包含精彩动作。比如，可以对各视频片段对应的若干视频图像帧进行抽帧识别，将抽取的视频图像帧输入预先训练的第二神经网络模型，第二神经网络模型可以识别出输入的该视频图像帧中是否包含预设的精彩动作，还可以输出包含的是哪一个精彩动作。在具体实现中，也可以对每一帧视频图像都进行识别，然而本实施方式对此不做具体限定。

其中，第二神经网络模型预先根据采集的图像数据集训练得到，图像数据集中的图像包含预设的精彩动作。比如，可以寻找包含预设的精彩动作的视频图像作为图像数据集，可以预先对该图像数据集中的图像进行标记，以区分不同的图像包含的是哪一种精彩动作。比如，图像数据集中，包含跳杀/跳劈这一精彩动作的图像标记为“1”，包含鱼跃救球这一精彩动作的图像标记为“2”，包含网前斗球这一精彩动作的图像标记为“3”。通过对图像数据集中带有标记的图像进行训练以得到第二神经网络模型，第二神经网络模型的输出可以为：“1”、“2”、或“3”以表示输入的视频图像帧中包含的是哪一种精彩动作。需要说明的是，本实施方式中对不同精彩动作的标记方式只是以标记“1”、“2”、“3”为例，在具体实现中，并不以此为限。

进一步的，一个视频片段通常可以包括多个视频图像帧，每个视频图像帧中都可能包含精彩动作，每当识别到一个视频图像帧中包含精彩动作则可以进行一次加分操作，不同种类的精彩动作对应的加分分值可以根据实际需要进行设置，可以相同也可以不同。各视频片段可以预设有初始分数，初始分数的分值可以根据实际需要进行设置，对此本实施方式不做具体限定。

在一个例子中，精彩动作可以为上述的跳杀/跳劈、鱼跃救球和网前斗球，假设针对上述三个精彩动作预设的加分分值依次为1分、2分、3分，各视频片段预设的初始分数均为0分。假设在一段视频片段中，识别到跳杀/跳劈这一精彩动作的视频图像帧有2个，识别到鱼跃救球这一精彩动作的视频图像帧有1个，识别到网前斗球这一精彩动作的视频图像帧有1个，那么该段视频片段根据精彩动作这一打分因子进行加分后的分数可以为0+1×2+2×2+3×1＝9分。假设在一段视频片段中没有识别到精彩动作，则不对该视频片段进行加分，即该视频片段基于精彩动作这一打分因子的打分分数维持预设的初始分数不变。根据上述示例，可以得到各视频片段根据精彩动作这一打分因子进行加分后的分数。

步骤203：对分数大于预设阈值的视频片段进行剪辑，得到剪辑后的视频。

在一个例子中，对于待剪辑的视频中的各视频片段的打分分数可以为：基于精彩动作这一打分因子进行打分后得到的分数，电子设备可以将基于精彩动作这一打分因子获取的各视频片段的分数分别与预设阈值进行对比，得到分数大于预设阈值的视频片段。然后，对分数大于预设阈值的视频片段进行剪辑，得到剪辑后的视频。其中，预设阈值可以根据实际需要进行设置，对此，本实施方式不做具体限定。

在另一个例子中，对于待剪辑的视频中的各视频片段的打分分数可以为：基于精彩动作和上述第一实施方式中提到的观众呼声这两个打分因子分别进行打分后的分数之和。电子设备可以将基于精彩动作和观众呼声这两个打分因子，对各视频片段进行打分后的分数相加，将相加的结果作为各视频片段的最终分数。然后，对最终分数大于预设阈值的视频片段进行剪辑，得到剪辑后的视频。其中，预设阈值可以根据实际需要进行设置，对此，本实施方式不做具体限定。可有理解的是，基于一个打分因子进行打分时所设置的预设阈值通常可以小于基于多个打分因子进行打分时所设置的预设阈值。

需要说明的是，本实施方式中的上述各示例均为为方便理解进行的举例说明，并不对本发明的技术方案构成限定。

与现有技术相比，本实施方式，视频中的精彩动作在一定程度上有利于准确的表征视频的精彩程度，因此，根据各视频片段中是否识别到预设的精彩动作，以及识别到的精彩动作的数量等，对各视频片段进行打分，使得各视频片段的分数能够很好的体现出视频片段的精彩程度，从而有利于剪辑得到精彩程度高的视频片段。另外，本实施方式中还提供了一种结合精彩动作与观众呼声对各视频片段进行打分的方式，从而确定待剪辑的视频中的精彩片段，即从不同维度衡量各视频片段的精彩程度，进一步提高了最终确定的精彩视频片段的准确性。

本发明的第三实施方式涉及一种剪辑方法。本实施方式中，待剪辑的视频为体育赛事视频，其中，体育赛事视频中的各视频片段可以均为比赛进行中的片段。电子设备在进行剪辑之前可以先识别并获取待剪辑的体育赛事视频中比赛进行中的片段，比如，体育赛事视频可以为羽毛球、排球、网球等体育赛事视频。

本实施方式中，以羽毛球赛事视频为例，电子设备可以采用训练的光流网络追踪羽毛球的位置，对羽毛球进行定位，以判别当前是处于比赛间歇期还是多拍回合期。可以理解的是，对于羽毛球赛事而言，比赛进行中即为羽毛球处于多拍回合期，在多拍回合期，羽毛球的状态可以称为多拍回合状态。具体的，可以利用光流网络获取各视频图像帧中像素在时间域上的变化，以及相邻帧之间的相关性来找到上一视频图像帧与当前视频图像帧之间存在的对应关系，从而计算出相邻帧之间羽毛球的运动信息。比如，通过相邻视频图像帧之间的时间序列关系，判定羽毛球的运动状态，如果一定时间段内未检测到羽毛球，或检测到羽毛球但羽毛球处于静止状态，则判定当前比赛状态为中断状态，否则为多拍回合状态。当待剪辑的视频为羽毛球赛事视频时，打分因子可以包括多拍回合状态的持续时长，还是可以包括精彩动作和/或观众呼声。下面主要介绍如何基于多拍回合状态的持续时长对待剪辑的视频中的视频片段进行打分，得到各视频片段的分数，从而对分数大于预设阈值的视频片段进行剪辑，得到剪辑后的视频。

本实施方式中的剪辑方法的流程图可以如图6所示，可以包括：

步骤301：获取各视频片段中羽毛球赛事处于多拍回合状态的持续时长。

具体的说，可以先追踪羽毛球赛事视频中各相邻视频图像帧之间羽毛球的运动状态，比如，可以通过物体轨迹识别网络追踪羽毛球的运动状态。在一个例子中，物体轨迹识别网络可以为光流网络，但在具体实现中并不以此为限。然后，可以根据各相邻视频图像帧之间羽毛球的运动状态的变化，确定各视频片段中多拍回合状态的起始时间点和终止时间点。比如，若相邻视频图像帧之间羽毛球的状态变化为：从静止状态变为运动状态，则可以将相邻视频图像帧中的后一视频图像帧的时间点作为多拍回合状态的起始时间点。若相邻视频图像帧之间羽毛球的状态变化为：从运动状态变为静止状态，则可以将相邻视频图像帧中的后一视频图像帧的时间点作为多拍回合状态的终止时间点。最后，可以根据各视频片段中多拍回合状态的起始时间点和终止时间点，获取各视频片段中羽毛球赛事处于多拍回合状态的持续时长。

步骤302：对各视频片段中，多拍回合状态的持续时长超过第二预设时长的视频片段进行加分。

其中，各视频片段可以预设有初始分数，初始分数的分值可以根据实际需要进行设置，对此本实施方式不做具体限定。

具体的说，可以将各视频片段的多拍回合状态的持续时长与第二预设时长进行对比，对多拍回合状态的持续时长超过第二预设时长的视频片段进行加分。其中，第二预设时长可以根据实际需要进行设置，对此本实施方式不做具体限定。在加分时，可以对多拍回合状态的持续时长超过第二预设时长的各视频片段均加相同的分数，也可以根据多拍回合状态的持续时长超过第二预设时长的多少，加不同的分数，比如多拍回合状态的持续时长超过第二预设时长越多的视频片段加的分数越高。加分的分值大小可以根据实际需要进行设置，本实施方式对此不做具体限定。另外，如果一段视频片段中的多拍回合状态的持续时长未超过第二预设时长，那么该段视频片段基于多拍回合状态的持续时长这一打分因子的打分分数可以维持初始分数不变。

步骤303：对分数大于预设阈值的视频片段进行剪辑，得到剪辑后的视频。

在一个例子中，对于待剪辑的羽毛球赛事视频中的各视频片段的打分分数可以为：基于多拍回合状态的持续时长这一打分因子进行打分后得到的分数。电子设备可以将基于多拍回合状态的持续时长这一打分因子获取的各视频片段的分数分别与预设阈值进行对比，得到分数大于预设阈值的视频片段。然后，对分数大于预设阈值的视频片段进行剪辑，得到剪辑后的视频。其中，预设阈值可以根据实际需要进行设置，对此，本实施方式不做具体限定。

在另一个例子中，对于待剪辑的羽毛球赛事视频中的各视频片段的打分分数可以为：基于多拍回合状态的持续时长、上述第一实施方式中提到的观众呼声、上述第二实施方式中提到的精彩动作，这三个打分因子分别进行打分后的分数之和。电子设备可以将基于这三个打分因子，对各视频片段进行打分后的分数相加，将相加的结果作为各视频片段的最终分数。然后，对最终分数大于预设阈值的视频片段进行剪辑，得到剪辑后的视频。其中，预设阈值可以根据实际需要进行设置，对此，本实施方式不做具体限定。可有理解的是，对各视频片段进行打分时基于的打分因子的数量越多，所设置的预设阈值可以越大。需要说明的是，本示例中，只是以多拍回合状态的持续时长、观众呼声、精彩动作这三个打分因子为例，在具体实现中打分因子并不以上述三个为限。

在具体实现中，对于待剪辑的羽毛球赛事视频中的各视频片段的打分分数还可以为：基于多拍回合状态的持续时长、观众呼声、精彩动作中的一个或其任意组合得到的打分分数，对此，本实施方式不做具体限定。

与现有技术相比，本实施方式中，羽毛球比赛的多拍回合状态的持续时长有利于准确的反映比赛的精彩程度，多拍回合状态的持续时长越长，反映出比赛越精彩。因此，对多拍回合状态的持续时长超过第二预设时长的视频片段进行加分，有利于使精彩程度越高的视频片段得到更高的分数，从而能够作为被选中的片段剪辑出来。另外，本实施方式中还提供了一种结合精彩动作、观众呼声和多拍回合状态的持续时长对各视频片段进行打分的方式，从而确定待剪辑的视频中的精彩片段，即从多个维度衡量各视频片段的精彩程度，进一步提高了最终确定的精彩视频片段的准确性。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第四实施方式涉及一种电子设备，如图7所示，包括至少一个处理器401；以及，与至少一个处理器401通信连接的存储器402；其中，存储器402存储有可被至少一个处理器401执行的指令，指令被至少一个处理器401执行，以使至少一个处理器401能够执行上述的剪辑方法。

其中，存储器402和处理器401采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器401和存储器402的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器401。

处理器401负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器401在执行操作时所使用的数据。

本发明第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种剪辑方法，其特征在于，包括：

根据预设的用于表征视频精彩程度的打分因子，对待剪辑的视频中的各视频片段进行打分，并获取各所述视频片段的分数；

对分数大于预设阈值的视频片段进行剪辑，得到剪辑后的视频；

若所述待剪辑的视频中存在现场观众，所述打分因子包括：观众呼声；

所述根据预设的用于表征视频精彩程度的打分因子，对待剪辑的视频中的各视频片段进行打分，包括：

从所述待剪辑的视频中分离出音频数据；

根据所述音频数据，获取各所述视频片段中的观众呼声的特征数据；

根据各所述视频片段中的观众呼声的特征数据，对各所述视频片段进行打分；

其中，各所述视频片段预设有初始分数，所述特征数据包括：所述观众呼声的持续时长；所述根据各所述视频片段中的观众呼声的特征数据，对各所述视频片段进行打分，包括：

对各所述视频片段中，所述观众呼声的持续时长超过第一预设时长的视频片段进行加分；

其中，各所述视频片段中的观众呼声的持续时长通过以下方式获取：

将所述音频数据划分为若干相同时长的音频样本；其中，所述相同时长小于各所述视频片段的时长；

获取各所述音频样本所属的类型；其中，所述类型为：含有观众呼声或不含有观众呼声；

根据各所述音频样本的类型，获取各所述视频片段中观众呼声的持续时长；

所述根据各所述音频样本的类型，获取各所述视频片段中观众呼声的持续时长，包括：

将各所述音频样本的类型按时间顺序进行组合，并与预设的组合模板进行匹配；其中，所述组合模板包括：用于表征观众呼声的开始时间点的第一组合模板和用于表征观众呼声的结束时间点的第二组合模板；

根据匹配的结果获取各所述视频片段中观众呼声的开始时间点和结束时间点；

根据各所述视频片段中观众呼声的开始时间点和结束时间点，获取各所述视频片段中观众呼声的持续时长。

2.根据权利要求1所述的剪辑方法，其特征在于，所述特征数据还包括：声音强度；

所述根据各所述视频片段中的观众呼声的特征数据，对各所述视频片段进行打分，包括：

获取各所述视频片段中的观众呼声的声音强度和各所述视频片段中的背景音的声音强度的差值；

根据各所述视频片段的所述差值，对各所述视频片段进行加分；其中，差值越大的视频片段，加分的分值越大。

3.根据权利要求1所述的剪辑方法，其特征在于，所述打分因子包括：精彩动作；

从所述待剪辑的视频中分离出图像数据；

根据所述图像数据，识别各所述视频片段中是否包含所述精彩动作；

对各所述视频片段中，包含所述精彩动作的视频片段进行加分；其中，各所述视频片段预设有初始分数。

4.根据权利要求1至3中任一项所述的剪辑方法，其特征在于，所述待剪辑的视频为体育赛事视频，所述体育赛事视频中的各所述视频片段均为比赛进行中的片段。

5.根据权利要求4所述的剪辑方法，其特征在于，所述体育赛事视频为羽毛球赛事视频，所述打分因子包括：多拍回合状态的持续时长；

获取各所述视频片段中羽毛球赛事处于多拍回合状态的持续时长；

对各所述视频片段中，所述多拍回合状态的持续时长超过第二预设时长的视频片段进行加分；其中，各所述视频片段预设有初始分数。

6.根据权利要求5所述的剪辑方法，其特征在于，所述获取各所述视频片段中羽毛球赛事处于多拍回合状态的持续时长，包括：

追踪所述羽毛球赛事视频中各相邻视频图像帧之间羽毛球的运动状态；

根据各所述相邻视频图像帧之间羽毛球的运动状态的变化，确定各所述视频片段中多拍回合状态的起始时间点和终止时间点；

根据各所述视频片段中多拍回合状态的起始时间点和终止时间点，获取各所述视频片段中羽毛球赛事处于多拍回合状态的持续时长。

7.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任一所述的剪辑方法。

8.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的剪辑方法。