CN115708359A

CN115708359A - 视频片段的截取方法、装置及存储介质

Info

Publication number: CN115708359A
Application number: CN202110963211.5A
Authority: CN
Inventors: 胡佳高; 王飞; 余鹏飞; 周代国
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd; Xiaomi Technology Wuhan Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd; Xiaomi Technology Wuhan Co Ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2023-02-21
Anticipated expiration: 2041-08-20
Also published as: CN115708359B

Abstract

本公开是关于一种视频片段的截取方法、机器学习模型的训练方法及装置。所述方法包括：从视频中截取出多个候选视频片段；其中，不同的所述候选视频片段的起始时刻和终止时刻的至少其中之一不同；将所述多个候选视频片段输入机器学习模型，得到表征所述多个候选视频片段的截取是否满足截取要求的评分值；根据所述多个候选视频片段的评分值，确定最大评分值对应的候选视频片段的片段参数；其中，所述片段参数包括所述候选视频片段的起始时刻、终止时刻以及片段时长的至少其中之一；基于所述最大评分值对应的候选视频片段的片段参数，从所述视频中截取目标视频片段。

Description

视频片段的截取方法、装置及存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频片段的截取方法、装置及存储介质。

背景技术

随着网络技术的快速发展，大量视频的产生，极大丰富了人们的日常生活。但由于时间等因素，导致用户无法完整观看视频，人们希望能够在短时间内通过浏览视频的部分片段(例如精彩片段)以快速获取该视频的主要内容。

视频片段的截取可以是针对该视频中的任意一个或多个满足用户需求的视频片段进行截取。例如，从视频中截取出精彩视频片段等。

但相关技术中，视频片段的截取方法通常关注于视频片段截取内容的准确性，即保障截取出的视频片段中包含有用户需求的目标视频片段，而缺乏对视频片段的信息完整性的关注，导致用户体验不佳。

发明内容

本公开提供一种视频片段的截取方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种视频片段的截取方法，包括：

从视频中截取出多个候选视频片段；其中，不同的所述候选视频片段的起始时刻和终止时刻的至少其中之一不同；

将所述多个候选视频片段输入至机器学习模型，得到表征所述多个候选视频片段的截取是否满足截取要求的评分值；

根据所述多个候选视频片段的评分值，确定最大评分值对应的候选视频片段的片段参数；其中，所述片段参数包括所述候选视频片段的起始时刻、终止时刻以及片段时长的至少其中之一；

基于所述最大评分值对应的候选视频片段的片段参数，从所述视频中截取目标视频片段。

可选的，所述候选视频片段包括以下至少之一：

第一类视频片段，其中，所述第一类视频片段的起始时刻，用于确定所述目标视频片段的起始时刻；

第二类视频片段，其中，所述第二类视频片段的终止时刻，用于确定所述目标视频片段的终止时刻；

在所述视频中，所述第二类视频片段包含的视频帧的播放时间，晚于所述第一类视频片段包含的视频帧的播放时间。

可选的，所述从视频中截取出多个候选视频片段，包括：

从所述视频中截取出初始视频片段；

根据所述初始视频片段的起始时刻，从所述视频中确定出第一候选区域，并在所述第一候选区域截取出起始时刻不同的多个所述第一类视频片段；

和/或，

根据所述初始视频片段的终止时刻，从所述视频中确定出第二候选区域，并在所述第二候选区域截取出终止时刻不同的多个所述第二类视频片段。

可选的，所述根据所述初始视频片段的起始时刻，从所述第一视频中确定出第一候选区域，包括：

以所述初始视频片段的起始时刻作为中心时刻，从所述视频中截取长度等于预设时长的视频区域作为所述第一候选区域。

可选的，所述根据所述初始视频片段的终止时刻，从所述第一视频中确定出第二候选区域，包括：

以所述初始视频片段的起始时刻作为中心时刻，从所述视频中截取长度等于预设时长的视频区域作为所述第二候选区域。

可选的，所述将所述多个候选视频片段输入至机器学习模型，得到表征所述多个候选视频片段的截取是否满足截取要求的评分值，包括：

利用机器学习模型的特征提取模块提取所述候选视频片段的视频特征；

将所述视频特征输入所述机器学习模块的评分模块，得到所述评分模块输出所述表征所述多个候选视频片段的截取是否满足截取要求的评分值。

可选地，所述方法还包括：

确定所述最大评分值对应的候选视频片段内的所有视频帧是否来自同一个镜头；

当所述最大评分值对应的候选视频片段内的视频帧来自不同镜头时，根据不同所述镜头切换时间对应的临界视频帧，重新确定所述候选视频片段的片段参数；重新确定后的所述候选视频片段的起始时刻对应于所述临界视频帧，或者，重新确定后的所述候选视频片段的终止时刻对应于所述临界视频帧；

所述基于所述最大评分值对应的候选视频片段的片段参数，从所述视频中截取目标视频片段，包括：

基于所述最大评分值对应的候选视频片段调整后的片段参数，从所述视频中截取目标视频片段。

可选地，在所述将所述多个候选视频片段输入至机器学习模型之前，所述方法还包括：获取多个视频和所述多个视频的标注信息；所述标注信息至少包括：所述视频中的标注视频片段和所述标注视频片段的起始时刻和终止时刻；

基于所述多个视频的标注信息，对所述多个视频进行预处理，得到初始模型的训练样本集；

将所述训练样本集中的视频片段输入至初始模型中，得到表征所述视频片段的截取是否满足截取要求的预测评分值；

基于所述视频片段的预测评分值，确定所述初始模型的损失函数值；

根据所述初始模型的损失函数值，对所述初始模型的待训练参数进行调整，得到机器学习模型。

可选地，所述基于所述多个视频的标注信息，对所述多个视频进行预处理，得到初始模型的训练样本集，包括：

根据所述标注视频片段的起始时刻，从所述视频中截取出第一类标注视频片段；

根据所述标注视频片段的终止时刻，从所述视频中截取出第二类标注视频片段；

从所述视频中任意截取出至少一个第三类标注视频片段；其中，所述第二类标注视频片段包含的视频帧的播放时间，晚于所述第一类标注视频片段包含的视频帧的播放时间；所述第三类标注视频片段为：所述视频中与所述第一类标注视频片段和所述第二类标注视频片段互不重叠的视频片段；

从多个所述第三类标注视频片段中选取任一所述第三类标注视频片段，与属于同一标注视频片段的第一类标注视频片段和第二类标注视频片段组合，得到所述标注视频片段的视频三元组；

基于多个所述标注视频片段的视频三元组，得到所述初始模型的训练样本集。

可选地，所述将所述训练样本集中的视频片段输入至初始模型中，得到表征所述视频片段的截取是否满足截取要求的预测评分值，包括：

利用初始模型中的特征提取模块提取所述第一类标注视频片段的视频特征、所述第二类标注视频片段的视频特征和所述第三类标注视频片段的视频特征；

将所述第一类标注视频片段的视频特征、所述第二类标注视频片段的视频特征和所述第三类标注视频片段的视频特征分别输入所述初始模型的评分模块，得到所述评分模块输出的所述第一类标注视频片段的预测评分值、所述第二类标注视频片段的预测评分值和所述第三类标注视频片段的预测评分值。

可选地，所述基于所述视频片段的预测评分值，确定所述初始模型的损失函数值，包括：

基于所述第一类标注视频片段的第一预测评分值，所述第二类标注视频片段的第一预测评分值和所述第三类标注视频片段的第一预测评分值，确定所述初始模型的第一损失函数值；其中，所述第一预测评分值用于指示视频片段包含有所述标注视频片段的起始时刻视频帧的可能性程度；

基于所述第一类标注视频片段的第二预测评分值、所述第二类标注视频片段的第二预测评分值和所述第三类标注视频片段的第二预测评分值，确定所述初始模型的第二损失函数值；其中，所述第二预测评分值用于指示视频片段包含有所述标注视频片段的终止时刻视频帧的可能性程度；

根据所述第一损失函数值和所述第二损失函数值，确定所述初始模型的损失函数值。

可选地，所述基于所述第一类标注视频片段的第一预测评分值，所述第二类标注视频片段的第一预测评分值和所述第三类标注视频片段的第一预测评分值，确定所述初始模型的第一损失函数值，包括：

基于所述第一类标注视频片段的第一预测评分值和所述第二类标注视频片段的第一预测评分值之间的差值，确定第一类标注视频片段与所述第二类标注视频片段之间的第一排序损失值；

基于所述第一类标注视频片段的第一预测评分值和所述第三类标注视频片段的第一预测评分值之间的差值，确定第一类标注视频片段和所述第三类标注视频片段之间的第二排序损失值；

根据所述第一排序损失值和所述第二排序损失值的和，确定所述初始模型的第一损失函数值。

可选地，所述基于所述第一类标注视频片段的第二预测评分值、所述第二类标注视频片段的第二预测评分值和所述第三类标注视频片段的第二预测评分值，确定所述初始模型的第二损失函数值，包括：

基于所述第二类标注视频片段的第二预测评分值和所述第一类标注视频片段的第二预测评分值之间的差值，确定所述第二类标注视频片段与所述第一类标注视频片段之间的第三排序损失值；

基于所述第二类标注视频片段的第二预测评分值和所述第三类标注视频片段的第二预测评分值之间的差值，确定所述第二类标注视频片段与所述第三类标注视频片段之间的第四排序损失值；

根据所述第三排序损失值和所述第四排序损失值的和，确定所述初始模型的第二损失函数值。

根据本公开实施例的第二方面，提供一种视频片段的截取装置，所述装置包括：

截取模块，用于从视频中截取出多个候选视频片段；其中，不同的所述候选视频片段的起始时刻和终止时刻的至少其中之一不同；

评分模块，用于将所述多个候选视频片段输入至机器学习模型，得到表征所述多个候选视频片段的截取是否满足截取要求的评分值；根据所述多个候选视频片段的评分值，确定最大评分值对应的候选视频片段的片段参数；其中，所述片段参数包括所述候选视频片段的起始时刻、终止时刻以及片段时长的至少其中之一；

所述截取模块，还用于基于所述最大评分值对应的候选视频片段的片段参数，从所述视频中截取目标视频片段。

根据本公开实施例的第三方面，提供一种视频片段的截取装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行所述可执行指令时，实现如本公开实施例的第一方面所述方法中的步骤。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由视频片段的截取装置的处理器执行时，使得所述视频片段的截取装置能够执行如本公开实施例的第一方面所述方法中的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例提供的视频片段的截取方法，通过从视频中截取出多个起始时刻和/或终止时刻不同的候选视频片段，利用机器学习模型对所述多个候选视频片段进行评分，通过所述多个候选视频片段的评分值，直观的确定出所述多个候选视频片段的视频帧中包含有目标视频片段的起始信息/终止信息的可能性程度；从而根据所述多个候选视频片段的评分值，确定出最大评分值对应的候选视频片段，根据该候选视频片段的片段参数，从视频中截取出目标视频片段，从而能够提高截取出的目标视频片段的起始时刻和/或终止时刻的准确性，使得截取出的目标视频片段的信息更完整，提高用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据本公开实施例示出的一种视频片段的截取方法流程图。

图2是根据本公开实施例示出的一种机器学习模型的训练方法流程图。

图3是根据本示例示出的一种机器学习模型的训练方法的流程图。

图4为本示例提供的一种训练样本集中的视频片段的示意图。

图5是根据本示例示出的一种视频片段的截取方法的流程图。

图6是根据一示例性实施例示出的一种视频片段的截取装置的结构示意图。

图7是根据一示例性实施例示出的一种视频片段的截取装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本公开实施例提供一种视频片段的截取方法。图1是根据本公开实施例示出的一种视频片段的截取方法流程图，如图1所示，所述方法包括以下步骤：

步骤S101，从视频中截取出多个候选视频片段；其中，不同的所述候选视频片段的起始时刻和终止时刻的至少其中之一不同；

步骤S102，将所述多个候选视频片段输入至机器学习模型，得到表征所述多个候选视频片段的截取是否满足截取要求的评分值；

步骤S103，根据所述多个候选视频片段的评分值，确定最大评分值对应的候选视频片段的片段参数；其中，所述片段参数包括所述候选视频片段的起始时刻、终止时刻以及片段时长的至少其中之一；

步骤S104，基于所述最大评分值对应的候选视频片段的片段参数，从所述视频中截取目标视频片段。

在本公开实施例中所涉及的视频片段的截取方法可以应用于电子设备；这里，所述电子设备包括终端或服务器等设备，该终端可以为手机、平板电脑、笔记本电脑等；该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。

在步骤S101中，所述候选视频片段的数量可根据所述视频的时长确定；针对不同时长的视频，从所述视频中截取的候选视频片段的数量可以不同。

在本公开实施例中，可基于不同起始时刻或不同终止时刻，从所述视频中截取出多个预设时长的候选视频片段；还可基于相同起始时刻或相同终止时刻，从所述视频中截取出多个不同时长的候选视频片段。

在一些实施例中，可通过预设时间间隔，从所述视频中等时间截取多个预设时长的候选视频片段。例如，根据预设时间间隔，分别从所述视频的第0秒、第2秒、第4秒、以此类推，每间隔2秒截取预设时长的候选视频片段，直至视频终止。

需要说明的是，所述视频可以是已经录制完成的视频文件，也可以是正在录制的视频，录制视频的过程包括获取连续多个视频帧的过程，已录制的视频部分由上述视频帧构成。

在步骤S102中，将截取到的多个候选视频片段分别输入到预先训练好的机器学习模型中，所述机器学习模型可通过对输入的候选视频片段满足截取要求的程度进行评分。

这里，所述截取要求可为所述候选视频片段的起始时刻或终止时刻的视频帧是否包含有目标视频片段的起始信息或终止信息。目标视频片段可根据用户需求进行设定。例如，若针对篮球比赛视频，所述目标视频片段可为灌篮视频片段，所述截取要求可为所述候选视频片段的起始时刻的视频帧是否包含有所述灌篮操作的开始信息(如起跳画面)。

在步骤S103中，根据所述机器学习模型输出的所述多个候选视频片段的评分值，对所述多个候选视频片段进行排序，根据排序结果确定出最大评分值对应的候选视频片段；并获取所述候选视频片段的片段参数。

可以理解的是，针对同一视频的不同候选视频片段，机器学习模型输出的评分值越高，说明该候选视频片段的起始时刻或终止时刻的视频帧包含目标视频片段的起始信息或终止信息的可能性越高或准确度越高。

故可根据机器学习模型输出的所述多个候选视频片段的评分值，确定出最大评分值对应的候选视频片段；该最大评分值对应的候选视频片段的起始时刻或终止时刻的视频帧包含目标视频片段的起始信息或终止信息的可能性最高或准确度越高。

根据该最大评分值对应的候选视频片段的片段参数，即可确定出所述目标视频片段的起始视频帧和/或终止视频帧等片段参数。

在另一些实施例中，针对所述候选视频片段，所述机器学习模型输出的评分值可包括：第一评分值和第二评分值；其中，所述第一评分值用于表征所述候选视频片段的起始时刻的视频帧包含目标视频片段的起始信息的可能性程度；所述第二评分值用于表征所述候选视频片段的终止时刻的视频片段包含目标视频片段的终止信息的可能性程度。

可根据所述机器学习模型输出的所述多个候选视频片段的第一评分值，对所述多个候选视频片段进行排序，确定出最大第一评分值对应的候选视频片段，获取所述最大第一评分值对应的候选视频片段的起始时刻；根据所述机器学习模型输出的所述多个候选视频片段的第二评分值，对所述多个候选视频片段进行排序，确定出最大第二评分值对应的候选视频片段，获取所述最大第二评分值对应的候选视频片段的终止时刻。

在步骤S104中，将最大评分值对应的候选视频片段的片段参数确定为所述目标视频片段的片段参数，并基于所述片段参数，从视频中截取出所述目标视频片段。

在本公开实施例中，可根据所述最大评分值对应的候选视频片段的起始时刻和/或终止时刻，从所述视频中截取出所述目标视频片段。

在一些实施例中，可基于所述最大第一评分值对应的候选视频片段和所述最大第二评分值对应的候选视频片段的片段参数，从所述视频中截取出所述目标视频片段。

可将最大第一评分值对应的候选视频片段的起始时刻确定为所述目标视频片段的起始时刻，将最大第二评分值对应的候选视频片段的终止时刻确定为所述目标视频片段的终止时刻，从所述视频截取出从所述起始时刻到所述终止时刻之间的目标视频片段。

可选地，所述候选视频片段包括以下至少之一：

在本公开实施例中，所述第一类视频片段可为包含有所述目标视频片段的起始信息的起始候选视频片段。所述第二类视频片段可为包含有所述目标视频片段的终止信息的终止候选视频片段。

可以理解的是，针对同一目标视频片段而言，所述第一类视频片段可为所述目标视频片段的起始候选视频片段，所述第二类视频可为所述目标视频片段的终止候选视频片段，故在所述视频中，所述第一类视频片段包含的视频帧的播放时间早于所述第二类视频片段包含的视频帧的播放时间。

将所述第一类视频片段和/或所述第二类视频输入至所述机器学习模型中，所述机器学习模型输出的所述第一类视频片段的第一评分值高于所述第一类视频片段的第二评分值，所述机器学习模型输出的所述第二类视频片段的第二评分值高于所述第二类视频片段的第一评分值。

在本公开实施例中，不同所述第一类视频片段的起始时刻不同，不同所述第二类视频片段的终止时刻不同。在进行视频片段的截取时，通过从所述视频中截取出多个第一类视频片段，将所述多个第一类视频片段输入至机器学习模型中，得到所述机器学习模型输出的所述多个第一类视频片段的第一评分值和第二评分值；基于所述第一评分值，对所述多个第一类视频片段进行排序，根据排序结果，确定出最大第一评分值对应的第一类视频片段；获取所述最大第一评分值对应的第一类视频片段的起始时刻，所述最大第一评分值对应的第一类视频片段的起始时刻即为所述目标视频片段的起始时刻；

和/或，从所述视频中截取出多个第二类视频片段，将所述多个第二类视频片段输入至机器学习模型中，得到所述机器学习模型输出的所述多个第二类视频片段的第一评分值和第二评分值；基于所述第二评分值，对所述多个第二类视频片段进行排序，根据排序结果，确定出最大第二评分值对应的第二类视频片段；获取所述最大第二评分值对应的第二类视频片段的终止时刻；所述最大第二评分值对应的第二类视频片段的终止时刻即为所述目标视频片段的终止时刻。

在本公开的另一些实施例中，所述机器学习模型包括：第一评分模块和与所述第一评分模块并列设置的第二评分模块；

所述第一评分模块，用于根据输入的第一类视频片段，输出表征所述第一类视频片段是否满足截取要求的第一评分值；

所述第二评分模块，用于根据输入的第二类视频片段，输出表征所述第二类视频片段是否满足截取要求的第二评分值。

通过将所述多个第一类视频片段输入至所述第一评分模块，将所述多个第二类视频片段输入至第二评分模块，得到第一评分模块输出的表征所述第一类视频片段是否满足截取要求的第一评分值，以及第二评分模块输出的表征所述第二类视频片段是否满足截取要求的第二评分值；将最大第一评分值对应的第一类视频片段的起始时刻确定为所述目标视频片段的起始时刻；将最大第二评分值对应的第二类视频片段的终止时刻确定为所述目标视频片段的终止时刻。

通过并行设置的第一评分模块和第二评分模块，对所述第一类视频片段和所述第二类视频片段进行并行处理，从而有效地提高机器学习模块的预测效率，缩短预测时间。

在另一些实施例中，所述候选视频片段包括：第三类视频片段；

所述第三类视频片段的起始时刻，用于确定目标视频片段的起始时刻，且所述第三类视频片段的终止时刻，用于确定目标视频片段的终止时刻。

在本公开实施例中，所述第三类视频片段可为同时包含有所述目标视频片段起始时刻视频帧，以及目标视频片段终止时刻视频帧的候选视频片段。不同所述第三类视频片段的起始时刻和终止时刻的至少其中之一不同。

通过从所述视频中截取出多个第三类视频片段，将所述多个第三类视频片段输入至机器学习模型中，得到所述第三类视频片段的评分值，基于评分值，对多个第三类视频片段进行排序，根据排序结果，确定出最大评分值对应的第三类视频片段；获取所述最大评分值对应的第三类视频片段的起始时刻和终止时刻；所述最大评分值对应的第三类视频片段的起始时刻和终止时刻即为所述目标视频片段的起始时刻和终止时刻。

可选地，所述步骤S101中的从视频中截取出多个候选视频片段，包括：

从所述视频中截取出初始视频片段；

和/或，

在本公开实施例中，可通过将视频划分为多个视频片段，并分别对所述多个视频片段包含的视频帧进行分析，根据所述多个视频片段的分析结果，确定出满足要求的初始视频片段。

需要说明的是，可利用视频截取算法，从视频中截取一个或多个满足要求的初始视频片段。这里，所述视频截取算法可根据实际需求进行确定，本公开实施例不作具体限定。

例如，要求截取出视频中包含的动作片段，可利用卷积神经网络，对所述多个视频片段包含的视频帧进行动作分类，根据所述多个视频片段的动作分类结果，确定出视频中包含的动作片段(即初始视频片段)。

又例如，要求截取出视频中精彩片段，可通过对所述多个视频片段进行特征提取，将所述多个视频片段的特征分别输入至精彩度评估模型，得到所述多个视频片段的精彩度评分值，基于所述多个视频片段的精彩度分值进行排序，将所述精彩度分值最大的视频片段确定出初始视频片段。

需要说明的是，相关的视频截取算法通常关注于提升视频片段提取的准确性，即保障提取到的视频片段中包含有目标视频帧，而并未考虑到提取的视频片段的起始时刻和/或终止时刻的准确性；可能导致提取出的视频片段缺少起始信息和终止信息，或者，提取出的视频片段包含过多起始时刻之前或终止时刻之后的无关视频帧。故本公开实施例在从所述视频截取出初始视频片段后，需要进一步确定所述初始视频片段的起始信息和终止信息是否完整。

可通过获取所述初始视频片段的起始时刻，基于所述初始视频片段的起始时刻，从所述视频中确定出预设时长的第一候选区域。并在所述第一候选区域内截取出多个所述第一类视频片段。其中，所述多个第一类视频片段的起始时刻不同。

可通过获取所述初始视频片段的终止时刻，基于所述初始视频片段的终止时刻，从所述视频中确定出预设时长的第二候选区域。并在所述第一候选区域内截取出多个所述第二类视频片段。其中，所述多个第二类视频片段的终止时刻不同。

这里，所述预设时长可根据实际需求进行设定，例如，所述预设时长为3秒。

所述确定第一候选区域、第二候选区域的方式可根据实际需求进行设置，例如，基于所述视频的时间轴，将所述初始视频片段的起始时刻之后的预设时长范围内的视频片段确定为所述第一候选区域。或者，基于所述视频的时间轴，将所述初始视频片段的起始时刻之前的预设时长范围内的视频片段确定为所述第一候选区域。

可以理解的是，所述第一候选区域是根据所述初始视频片段的起始时刻确定的，所述初始视频片段的起始时刻的视频帧为所述第一候选区域内的视频帧。所述第二候选区域是根据所述初始视频片段的终止时刻确定的，所述初始视频片段的终止时刻的视频帧为所述第二候选区域内的视频帧。

在本公开实施例中，可预先设置从所述第一候选区域截取的第一类视频片段的数量，以及从所述第二候选区域截取的第二类视频片段的数量。这里，所述第一类视频片段的数量可根据第一候选区域对应的时长以及所述第一类视频片段的时长确定，所述第二类视频片段的数量可根据第二候选区域对应的时长以及所述第二类视频片段的时长确定。

示例性地，若所述第一候选区域和第二候选区域的时长均为20秒；所述第一类视频片段的时长为2秒；所述第二类视频片段的时长为4秒，为了能够避免遗漏，则可设置从所述第一候选区域截取的第一类视频片段的数量为10个，从所述第二候选区域截取的第二类视频片段的数量为5个。

在本公开的一些实施例中，可基于预设时间间隔，从所述第一候选区域截取多个预设时长的候选视频片段；和/或，基于预设时间间隔，从所述第二候选区域截取多个预设时长的候选视频片段。

这里，所述预设时长和所述预设时间间隔可根据实际需求进行设定，其中，所述预设时长小于所述第一候选区域/第二候选区域对应的时长，所述预设时间间隔小于所述第一候选区域/第二候选区域对应的时长。

例如，所述第一候选区域的时长为3秒，所述预设时间间隔为0.1秒，所述第一类视频片段的时长为1.5秒；可从所述第一候选区域的第0秒、第0.1秒、第0.2秒，以此类推，从所述第一候选区域截取出30个第一类视频片段。

在本公开的一些实施例中，所述方法还包括：

根据所述初始视频片段的起始时刻，确定出第一候选时刻；所述第一候选时刻早于所述起始时刻；

根据所述初始视频片段的终止时刻，确定出第二候选时刻；所述第二候选时刻晚于所述终止时刻；

从所述第一候选时刻和所述第二候选时刻构成的第三候选区域中截取出多个所述第三类视频片段。

考虑到相关的视频截取方法截取出的目标视频片段缺少起始信息和/或终止信息，故本公开实施例在从所述视频截取出初始视频片段后，根据所述初始视频片段的起始时刻和终止时刻，从视频中确定出第三候选区域，所述第三候选区域的视频时长大于所述初始视频片段的片段时长，从所述第三候选区域中截取出多个第三类视频片段。

可以理解的是，所述第三候选区域是根据所述初始视频片段的起始时刻和终止时刻共同确定的，所述初始视频片段的所有视频帧均为所述第三候选区域内的视频帧。

所述第一候选时刻与所述起始时刻之间的时长、所述第二候选时刻与所述终止时刻之间的时长可根据实际需求进行设定，例如，起始时刻为所述视频的第5秒，可将第一候选时刻确定为所述视频的第4秒。

例如，可通过现有的视频截取方法获取初始视频片段，基于所述初始视频片段的起始时刻和终止时刻，将起始时刻前1.5秒至终止时刻后1.5秒的视频片段确定为所述第三候选区域；从所述第三候选区域内以预设时间间隔获取多个第三类视频片段。

可选地，所述根据所述初始视频片段的起始时刻，从所述第一视频中确定出第一候选区域，包括：

在本公开实施例中，所述预设时长可根据实际需求进行设定，这里不做具体限定。

由于现有的视频截取方法得到的目标视频片段可能缺少包含有起始信息/终止信息的视频帧，或者包含过多的起始信息之前/终止信息之后的无关视频帧，故目标视频片段的包含有起始信息的视频帧可能为所述初始视频片段的起始时刻之前的视频帧，或者可能为所述初始视频片段的起始时刻之后的视频帧。

为了确保截取的准确性，先通过现有的视频截取方法从视频中截取出初始视频片段，将初始视频片段的起始时刻作为所述第一候选区域的中心时刻，并基于所述中心时刻，从视频中截取预设时长的视频区域作为第一候选区域，使得从第一候选区域内截取的多个第一类视频片段，可为所述初始视频片段的起始时刻之前的视频片段，也可为所述初始视频片段的起始时刻之后的视频片段；减少由于多个第一类视频片段对应的第一候选区域内未包含有目标视频片段的起始时刻的视频帧，而导致截取出的目标视频片段的起始时刻不准确的情况。

可选地，所述根据所述初始视频片段的终止时刻，从所述第一视频中确定出第二候选区域，包括：

由于现有的视频截取方法得到的目标视频片段可能缺少包含有起始信息/终止信息的视频帧，或者包含过多的起始信息之前/终止信息之后的无关视频帧，故目标视频片段的包含有终止信息的视频帧可能为所述初始视频片段的终止时刻之前的视频帧，或者可能为所述初始视频片段的终止时刻之后的视频帧。

为了确保截取的准确性，先通过现有的视频截取方法从视频中截取出初始视频片段，将初始视频片段的终止时刻作为所述第二候选区域的中心时刻，并基于所述中心时刻，从视频中截取预设时长的视频区域作为第二候选区域，使得从第二候选区域内截取的多个第二类视频片段，可为所述初始视频片段的终止时刻之前的视频片段，也可为所述初始视频片段的终止时刻之后的视频片段，减少由于多个第二类视频片段对应的第二候选区域为包含有目标视频片段的终止信息的视频帧，而导致截取出的目标视频片段的终止时刻不准确的情况。

可选地，所述步骤S102中将所述多个候选视频片段输入至机器学习模型，得到表征所述多个候选视频片段的截取是否满足截取要求的评分值，包括：

在本公开实施例中，所述特征提取模块通过对所述候选视频片段进行特征提取处理，得到表征所述候选视频片段的内容的视频特征。这里，所述视频特征可以是向量形式。

需要说明的是，在本公开实施例中，可采用已有的视频理解网络中的特征提取模块对候选视频片段进行特征提取；例如，所述特征提取模块可为基于有限状态机的机器学习模型中的特征提取层，或者，所述特征提取模块可为三维卷积神经网络模型中的特征提取层等。

在一些实施例中，可通过特征提取模块对所述候选视频片段包含的各个视频帧进行特征提取，得到所述各个视频帧的图像特征；并将所述候选视频片段包含的多个视频帧的图像特征融合为所述候选视频片段的视频特征。

这里，通过对候选视频片段中的每个视频帧单独进行特征提取处理，得到各个视频帧的图像特征，并将所述候选视频片段中所有视频帧对应的图像特征融合为表征所述候选视频片段的内容的视频特征。其中，对融合得到视频特征的方法不作限定，例如可以是拼接处理、求和处理或加权求和等。

在特征提取模块从所述候选视频片段中提取出所述候选视频片段的视频特征后，将所述候选视频片段的视频特征输入至所述评分模块，通过所述评分模块对所述候选视频片段进行评分，得到各个候选视频片段的评分值。

在本公开实施例中，所述评分模块可以是根据所述候选视频片段起始时刻/终止时刻的视频帧包含有目标视频片段的起始信息/终止信息的可能性程度，对所述候选视频片段进行评分。针对同一目标视频片段的多个候选视频片段，所述评分模块对所述候选视频片段的评分值越高，该候选视频片段的起始时刻/终止时刻的视频帧包含有目标视频片段的起始信息/终止信息的可能性程度越高。各个候选视频片段之间的评分值的相对大小可以表征各个候选视频片段的视频帧包含起始信息/终止信息的可能性程度差异。

可通过得到的各个候选视频片段的评分值，对所述各个候选视频片段进行排序，从而确定出最大评分值对应的候选视频片段，将所述最大评分值对应的候选视频片段的起始时刻/终止时刻确定为所述目标视频片段的起始时刻/终止时刻；利用评分值能够直观的区分各个候选视频片段的视频帧包含有目标视频片段的起始信息/终止信息的可能性程度，进而有助于快速、准确地提取出用户所需的完整的目标视频片段。

在本公开的一些实施例中，所述评分模块输出的所述评分值包括：第一评分值和第二评分值；其中，所述第一评分值用于表征所述候选视频片段的起始时刻的视频帧包含目标视频片段的起始信息的可能性程度；所述第二评分值用于表征所述候选视频片段的终止时刻的视频片段包含目标视频片段的终止信息的可能性程度。

可选地，所述方法还包括：

在本公开实施例中，可通过确定所述最大评分值对应的候选视频片段内的所有视频帧是否来自于同一个镜头，确定所述最大评分值对应的候选视频片段内是否存在镜头边界。

所述确定所述最大评分值对应的候选视频片段内的所有视频帧是否来自于同一个镜头，可包括：

获取所述最大评分值对应的候选视频片段内各个视频帧内的像素的亮度和；

获取所述候选视频片段内任意相邻两个所述视频帧之间的亮度和之差；

根据所述任意相邻的两个所述视频帧之间的亮度和之差与预设阈值的比对结果，确定所述任意相邻的两个所述视频帧是否来自于同一个镜头。

在本公开实施例中，若相邻的所述视频帧之间的亮度和之差大于预设阈值，确定相邻的两个所述视频帧来自于不同镜头。

需要说明的是，还可以通过其他方式确定所述候选视频片段内的所有视频帧是否来自于同一个镜头，例如，还可以通过颜色直方图或感知哈希等方法确定所述候选视频片段内的所有视频帧是否来自于同一个镜头本公开实施例对此不作限定。

若所述最大评分值对应的候选视频片段内的所有视频帧来自于同一个镜头，则所述最大评分值对应的候选视频片段内不包含有过多的目标视频片段的起始信息之前或终止信息之后的其他视频帧。

若所述最大评分值对应的候选视频片段的所有视频帧来自不同镜头，即所述最大评分值对应的候选视频片段内包含有过多的目标视频片段的起始信息之前或终止信息之后的其他视频帧；可通过调整所述候选视频片段的起始时刻/终止时刻，使得调整后的所述候选视频片段的起始时刻/终止时刻为所述不同所述镜头切换时间对应的临界视频帧；从而去除了所述候选视频片段内的所述目标视频片段的起始信息之前或终止信息之后的其他视频帧。

可选地，图2是根据本公开实施例示出的一种机器学习模型的训练方法流程图，如图2所示，在所述将多个候选视频片段输入至机器学习模型之前，所述方法还包括：

步骤S201，获取多个视频和所述多个视频的标注信息；所述标注信息至少包括：所述视频中的标注视频片段和所述标注视频片段的起始时刻和终止时刻；

步骤S202，基于所述多个视频的标注信息，对所述多个视频进行预处理，得到初始模型的训练样本集；

步骤S203，将所述训练样本集中的视频片段输入至初始模型中，得到表征所述视频片段的截取是否满足截取要求的预测评分值；

步骤S204，基于所述视频片段的预测评分值，确定所述初始模型的损失函数值；

步骤S205，根据所述初始模型的损失函数值，对所述初始模型的待训练参数进行调整，得到机器学习模型。

在本公开实施例中，为了提升机器学习模型对所述候选视频片段评分的准确性，在实际调用所述机器学习模型之前，可以对所述机器学习模型进行监督学习，即进行训练。

本公开实施例可根据获取的多个视频以及所述多个视频的标注信息，对所述多个视频进行预处理；

这里，所述预处理可为根据所述多个视频的标注信息，对所述多个视频进行截取，得到多个视频片段和多个视频片段的标注信息；基于所述多个视频片段和所述多个视频片段的标注信息，得到训练样本集，从而使得机器学习模块能够有足够的训练数据进行训练。

在初始模型的训练过程中，根据所述多个视频片段的标注信息，获取所述标注视频片段以及所述标注视频片段的起始时刻和终止时刻；获取所述起始时刻对应的第一视频帧和终止时刻对应的第二视频帧；将训练样本集中的视频片段输入至初始网络中，通过获取指示所述视频片段的内容的视频特征、指示所述第一视频帧的内容的视频特征以及指示所述第二视频帧的内容的视频特征；根据所述视频片段对应的视频特征与所述第一视频帧对应的视频特征之间的特征差异，以及所述视频片段对应的视频特征与所述第二视频帧对应的视频特征之间的特征差异，确定出所述视频片段的预测评分值。

在本公开实施例中，可通过判断所述初始模型的损失函数值是否满足停止训练条件，若所述初始模型的损失函数值不满足停止训练条件时，继续对所述初始模型中的待训练参数进行优化，直至所述初始模型的损失函数值满足停止训练条件，即可得到机器学习模型。

这里，所述停止训练条件可为训练达到迭代次数和/或所述初始模型的损失函数收敛。迭代次数可根据所述初始模型的训练样本集中的视频的数量和初始模型的大小来确定，本公开在此不作具体限定。

可选地，所述步骤S202中的基于所述多个视频的标注信息，对所述多个视频进行预处理，得到初始模型的训练样本集，包括：

在本公开实施例中，所述第一类标注视频片段可为包含有所述标注视频片段的起始信息的起始视频片段；所述第二类标注视频片段可为包含有所述标注视频片段的终止信息的终止视频片段；所述第三类标注视频片段可为视频中非标注视频片段，也可为所述标注视频片段中包含有非起始时刻视频帧和非终止时刻视频帧的片段；所述第三类标注视频片段与所述第一类标注视频片段和所述第二类标注视频片段均不重叠。

可以理解的是，由于所述第三类标注视频片段是与所述第一类标注视频片段和所述第二类标注视频片段互不重叠的片段，故所述第三类标注视频片段的视频帧的内容与所述第一类标注视频片段的视频片段的内容、所述第二类标注视频片段的内容不同；在模型的训练过程中，初始模型可根据第三类标注视频片段与所述第一类标注视频片段、所述第二类标注视频片段之间的特征差异，区分出不同的视频片段。

在一些实施例中，根据所述视频的标注信息，确定出所述视频中的标注视频片段以及所述标注视频片段的起始时刻和终止时刻；可将所述标注视频片段的起始时刻作为中心时刻，从所述视频中截取出预设时长的视频片段作为第一类标注视频片段(即所述标注视频片段的起始视频片段)；可将所述标注视频片段的终止时刻作为中心时刻，从所述视频中截取出预设时长的视频片段作为第二类标注视频片段(即所述标注视频片段的终止视频片段)。

在本公开的另一些实施例中，确定所述第一类标注视频片段内的所有视频帧是否来自同一个镜头；当所述第一类标注视频片段内的视频帧来自不同镜头时，根据不同所述镜头切换时间对应的临界视频帧，重新确定所述第一类标注视频片段的起始时刻；其中，重新确定后的第一类标注视频片段的起始时刻对应所述临界视频帧；

和/或，确定所述第二类标注视频片段内的所有视频帧是否来自同一个镜头；当所述第二类标注视频片段内的视频帧来自不同镜头时，根据不同所述镜头切换时间对应的临界视频帧，重新确定所述第二类标注视频片段的终止时刻；其中，重新确定后的第二类标注视频片段的终止时刻对应所述临界视频帧。

可以理解的是，本公开实施例通过预处理得到的第一类标注视频片段和第二类标注视频片段进行镜头边界检测，减少所述第一类标注视频片段和/或所述第二类标注视频片段中包含有过多起始信息之前或终止信息之后的视频帧，提高机器学习模型的训练样本集的准确性，从而保证基于该训练样本集训练得到的机器学习模型的准确性。

为了提高所述机器学习模型评分的准确性，在本公开实施例中，可获取所述视频中同一个标注视频片段对应的第一类标注视频片段和第二类标注视频片段，并在从所述视频的多个第三类标注视频片段中选取任意一个第三类标注视频片段，将所述第一类标注视频片段、所述第二类标注视频片段和所述第三类标注视频片段组成该标注视频片段的视频三元组；例如，所述视频三元组可为[第一类标注视频片段、第二类标注视频片段、第三类标注视频片段]。

需要说明的是，为了便于初始模型能够更好地区分同一视频中不同视频片段的视频特征与所述标识视频片段的第一视频特征和/或第二视频特征之间的特征差异，所述第一类标注视频片段和所述第二类标注视频片段可为来自同一视频中同一标注视频片段的正样本片段，所述第三类标注视频片段可为同一视频中负样本片段；利用所述正样本片段和所述负样本片段对初始模型进行训练，根据不同视频片段的视频特征与所述标识视频片段的第一视频特征和/或第二视频特征之间的特征差异，得到的各个视频片段之间的相对评分值差异，有助于初始模型区分不同视频片段。

可选地，所述步骤S203中将所述训练样本集中的视频片段输入至初始模型中，得到表征所述视频片段的截取是否满足截取要求的预测评分值，包括：

在本公开实施例中，所述特征提取模块可从视频片段中提取用于表征所述视频片段的内容的视频特征；本公开对所述特征提取模块的网络结构不作限定；例如，所述特征提取模块可为基于有限状态机的机器学习模型中的特征提取层，或者，所述特征提取模块可为三维卷积神经网络模型中的特征提取层等。

所述评分模块可根据所述候选视频片段的视频特征，确定所述候选视频片段包含标识视频片段起始时刻和/或终止时刻的视频帧的可能性程度，根据所述可能性程度对所述候选视频片段进行评分。

这里，所述评分模块可为多层感知机神经网络模型。其中，所述多层感知机隐藏层数可以设定为2～4个。例如，视频片段的视频特征的维度为N，则该多层感知机神经网络模型的第一个全连接层输入维度为N，最后一个全连接层的输出维度为2。

可选地，所述步骤S204中基于所述视频片段的预测评分值，确定所述初始模型的损失函数值，包括：

在本公开实施例中，所述第一损失函数值可为所述第一类标注视频片段的第一预测评分值与所述第二类标注视频片段的第一预测评分值、所述第三类标注视频片段的第一预测评分值之间的相对评分值差异；即表征所述第一类标注视频片段的视频特征与所述第二类标注视频片段的视频特征、所述第三类标注视频片段的视频特征之间的特征差异。

所述第二损失函数值可为所述第二类标注视频片段的第二预测评分值与所述第一类标注视频片段的第二预测评分值、所述第三类标注视频片段的第二预测评分值之间的相对评分值差异，即表征所述第二类标注视频片段的视频特征与所述第一类标注视频片段的视频特征、所述第三类标注视频片段的视频特征之间的特征差异。

可根据所述第一损失函数值和所述第二损失函数值的和，确定所述初始模型的损失函数值。

可以理解的是，由于所述第一损失函数值用于表征所述第一类标注视频片段(即包含有标注视频片段起始时刻对应的视频帧的片段)的视频特征与所述第二类标注视频片段的视频特征、所述第三类标注视频片段的视频特征之间的特征差异；故在确定第一损失函数值的过程中，所述第一类标注视频片段为正样本片段；所述第二类标注视频片段和所述第三类标注视频片段为负样本片段；通过确定所述正样本片段与所述负样本片段之间的排序损失，得到所述初始模型的第一损失函数值。

由于所述第一类标注视频片段、所述第二类标注视频片段和所述第三类标注视频片段为所述视频中互不重叠的视频片段；通过分别确定所述第一类标注视频片段和所述第二类标注视频片段之间的第一排序损失值，以及所述第一类标注视频片段和所述第三类标注视频片段之间的第二排序损失值，确定出第一类标注视频片段和所述第二类标注视频片段、所述第三类标注视频片段之间的差异，基于所述所述第一排序损失值和所述第二排序损失值得到的第一损失函数值，对所述初始模型的待训练参数进行优化，使得训练得到的机器学习模型能够准确的从多个候选视频片段中，区分出目标视频片段的起始视频片段。

可以理解的是，由于所述第二损失函数值用于表征所述第二类标注视频片段(即包含有标注视频片段终止时刻对应的视频帧的片段)的视频特征与所述第一类标注视频片段的视频特征、所述第三类标注视频片段的视频特征之间的特征差异；故在确定第二损失函数值的过程中，所述第二类标注视频片段为正样本片段；所述第一类标注视频片段和所述第三类标注视频片段为负样本片段；通过确定所述正样本片段与所述负样本片段之间的排序损失，得到所述初始模型的第二损失函数值。

由于所述第一类标注视频片段、所述第二类标注视频片段和所述第三类标注视频片段为所述视频中互不重叠的视频片段；通过分别确定所述第二类标注视频片段和所述第一类标注视频片段之间的第三排序损失值，以及所述第二类标注视频片段和所述第三类标注视频片段之间的第四排序损失值，确定出第一类标注视频片段和所述第二类标注视频片段、所述第三类标注视频片段之间的差异，基于所述所述第三排序损失值和所述第四排序损失值得到的第二损失函数值，对所述初始模型的待训练参数进行优化，使得训练得到的机器学习模型能够准确的从多个候选视频片段中，区分出目标视频片段的终止视频片段。

本公开还提供以下实施例：

图3是根据本示例示出的一种机器学习模型的训练方法的流程图，如图3所示，所述方法包括：

步骤S301，获取多个视频和所述多个视频的标注信息；所述标注信息至少包括：所述视频中的标注视频片段和所述标注视频片段的起始时刻和终止时刻；

在本示例中，可通过采集一定数量的视频，并对所述视频中的目标视频片段进行标注；例如，若需要从视频中提取的视频片段为动作视频片段，则标注出视频中所有的动作视频片段，并标注所述动作视频片段的起始时刻和终止时刻。若需要从视频中提取的视频片段为精彩片段，则标注出视频中精彩程度较高的精彩视频片段，并标注出所述精彩视频片段的起始时刻和终止时刻。

可以理解的是，为了保证机器学习模型的准确性，在对所述机器学习模型的训练数据进行标注时，需要保证标注视频片段的起始时刻和终止时刻的准确性。

步骤S302，根据所述标注视频片段的起始时刻，从视频中截取出第一类标注视频片段；根据所述标注视频片段的终止时刻，从视频中截取出第二类标注视频片段；并从视频中任意截取出多个第三类标注视频片段；

这里，所述第一类标注视频片段包含的视频帧的播放时间，晚于所述第一类标注视频片段包含的视频帧的播放时间；所述第三类标注视频片段为：所述视频中与所述第一类标注视频片段和所述第二类标注视频片段互不重叠的视频片段。

在本示例中，所述第一类标注视频片段可为起始视频片段，所述第二类标注视频片段可为终止视频片段。

可通过获取所述视频中的标注视频片段的起始时刻和终止时刻，并以起始时刻为中心时刻，从所述视频中截取长度等于预设时长的视频片段作为所述标注视频片段的起始视频片段；以终止时刻为中心时刻，从所述视频中截取长度等于预设时长的视频片段作为所述标注视频片段的终止视频片段。

例如，可根据每个视频中各个标注视频片段的起始时刻和终止时刻，以起始时刻为中心时刻，从视频中截取1.5秒的视频片段作为所述标注视频片段的起始视频片段；以终止时刻为中心时刻，从视频中截取1.5秒的视频片段作为所述标注视频片段的终止视频片段。

在本示例中，所述第三类标注视频片段可为与所述起始视频片段和所述终止视频片段无关的其他视频片段。可从所述视频中随机截取多个与起始片段和终止片段均无交集的视频片段作为其他视频片段。

步骤S303，从多个所述第三类标注视频片段中选取任一所述第三标注类标注视频片段，与属于同一标注视频片段的第一类标注视频片段和第二类标注视频片段类标注视频片段组合，得到所述标注视频片段的视频三元组；基于多个所述标注视频片段的视频三元组，得到训练样本集；

在本示例中，将同一视频中的所有起始视频片段、终止视频片段和其他视频片段进行排列组合，得到一系列的[起始视频片段、终止视频片段、其他视频片段]的视频三元组，将所有的训练视频的视频三元组集合作为机器学习模型的训练样本集。

例如，如图4所示，图4为本示例提供的一种训练样本集中的视频片段的示意图。其中，标号41所示为视频的时间轴；标号42所示为所述视频中的标注视频片段；标号42a为所述标注视频片段的起始时刻；标号42b为所述标注视频片段的起始视频片段；其中，所述起始视频片段为：以所述起始时刻为中心时刻截取的1.5秒的视频片段。标号42c为所述标注视频片段的终止时刻；标号42d为所述标注视频片段的终止视频片段；其中，所述终止视频片段为：以所述终止时刻为中心时刻截取的1.5秒的视频片段。所述标号43a、43b和43c分别为所述视频中的与所述起始视频片段和所述终止视频片段均无交集的其他视频片段1、其他视频片段2和其他视频片段3。

则基于该视频的起始视频片段、终止视频片段和其他视频片段进行排列组合，得到的视频三元组集合可为{[起始视频片段、终止视频片段、其他视频片段1]，[起始视频片段、终止视频片段、其他视频片段2]，[起始视频片段、终止视频片段、其他视频片段2]}。

步骤S304，将所述训练样本集中的视频片段输入至初始模型中，利用初始模型中的特征提取模块提取所述第一类标注视频片段的视频特征、所述第二类标注视频片段的视频特征和所述第三类标注视频片段的视频特征；

在本示例中，通过特征提取模块提取各个视频片段的视频特征向量；这里，所述特征提取模块可为相关技术中的视频理解模型的特征提取层，例如，C3D、I3D和TSN等通用的视频理解网络中特征提取层。

步骤S305，将所述第一类标注视频片段的视频特征、所述第二类标注视频片段的视频特征和所述第三类标注视频片段的视频特征分别输入所述初始模型的评分模块，得到所述评分模块输出的所述第一类标注视频片段的第一预测评分值和第二预测评分值、所述第二类标注视频片段的第一预测评分值和第二预测评分值，以及所述第三类标注视频片段的第一预测评分值和第二预测评分值；

在本示例中，所述评分模块的输入为视频片段的特征向量，输出为所述视频片段的第一预测评分值和第二预测评分值；这里，所述第一预测评分值可为指示所述视频片段的起始信息是否满足截取要求的预测起始评分值；所述第二预测评分值可为指示所述视频片段的终止信息是否满足截取要求的预测终止评分值。

所述初始模型可为多层感知机神经网络模型，所述评分模块可为所述多层感知机神经网络模型中的隐藏层；这里，所述隐藏层的数目可为2-4个；假设输入所述评分模块的视频特征向量的维度为N，则所述多层感知机神经网络模型中第一个全连接层的输入维度为N，最后一个全连接层的输出维度为2。

通过利用特征提取模块对训练样本集中的视频三元组[起始视频片段、终止视频片段和其他视频片段]的三个视频片段分别提取视频特征，并将三个视频片段的视频特征分别输入至评分模块中，得到三个视频片段的预测起始评分值和预测终止评分值。

步骤S306，基于所述第一类标注视频片段的第一预测评分值，所述第二类标注视频片段的第一预测评分值和所述第三类标注视频片段的第一预测评分值，确定所述初始模型的第一损失函数值；基于所述第一类标注视频片段的第二预测评分值、所述第二类标注视频片段的第二预测评分值和所述第三类标注视频片段的第二预测评分值，确定所述初始模型的第二损失函数值；根据所述第一损失函数值和所述第二损失函数值，确定所述初始模型的损失函数值；

在本示例中，所述第一损失函数值可为所述初始模型的起始损失函数值，所述第二损失函数值可为所述初始模型的终止损失函数值。

所述初始模型的损失函数可为：

Loss＝Loss_begin+Loss_end；

其中，所述Loss为所述初始模型的损失函数值，所述Loss_begin为所述初始模型的起始损失函数值，所述Loss_end为所述初始模型的终止损失函数值。

在一些实施例中，所述确定所述初始模型的第一损失函数值，包括：

可以理解的是，所述初始模型的第一损失函数值(即起始损失函数值)由起始视频片段和终止视频片段的预测起始评分值的排序损失值，以及所述起始视频片段和其他视频片段的预测起始评分值的排序损失值计算得到。

具体地，所述初始模型的第一损失函数值可为：

Loss_begin＝loss_begin(Video_begin,Video_end)+loss_begin(Video_begin,Video_other)；

其中，所述Loss_begin为第一损失函数值，所述loss_begin为视频片段之间的预测起始评分值的排序损失值；所述Video_begin为起始视频片段；所述Video_end为终止视频片段，所述Video_other为其他视频片段。

所述预测起始评分值的排序损失值可为：

loss_begin(Video₁,Video₂)＝max(0,1-CNN_begin(Video₁)+CNN_begin(Video₂))；

其中，所述CNN_begin为所述评分模型输出的所述视频片段的预测起始评分值。

在另一些实施例中，所述确定所述初始模型的第二损失函数值，包括：

可以理解的是，所述初始模型的第二损失函数值(即终止损失函数值)由终止视频片段和起始视频片段的预测终止评分值的排序损失值，以及所述终止视频片段和其他视频片段的预测终止评分值的排序损失值计算得到。

具体地，所述初始模型的第二损失函数值可为：

Loss_end＝loss_end(Video_end,Video_begin)+loss_end(Video_end,Video_other)；

其中，所述Loss_end为第二损失函数值，所述loss_end为视频片段之间的预测终止评分值的排序损失值。

所述预测终止评分值的排序损失值可为：

loss_end(Video₁,Video₂)＝max(0,1-CNN_end(Video₁)+CNN_end(Video₂))；

其中，所述CNN_end为所述评分模型输出的所述视频片段的预测终止评分值。

步骤S307，根据所述初始模型的损失函数值，对所述初始模型的待训练参数进行调整，得到机器学习模型；

在本示例中，可通过判断所述初始模型的损失函数值是否满足停止训练条件，若损失函数值不满足停止训练条件时，继续对初始模型的待训练参数进行优化，直至所述初始模型的损失函数值满足停止训练条件，即可得到机器学习模型。

这里，所述停止训练条件可为训练达到迭代次数和/或损失函数收敛。所述迭代次数可根据训练样本集中的视频片段的数量来确定。

图5是根据本示例示出的一种视频片段的截取方法的流程图，如图5所示，所述方法包括：

步骤S401，从视频中截取出初始视频片段；根据所述初始视频片段的起始时刻和/或终止时刻，从视频中截取出多个候选视频片段；其中，不同的所述候选视频片段的起始时刻和终止时刻的至少其中之一不同；

在本示例中，根据所述初始视频片段的起始时刻，从所述视频中确定出第一候选区域，并在所述第一候选区域截取出起始时刻不同的多个所述第一类视频片段；根据所述初始视频片段的终止时刻，从所述视频中确定出第二候选区域，并在所述第二候选区域截取出终止时刻不同的多个所述第二类视频片段；

可以理解的是，考虑到相关的视频片段提取方法没有关注到对视频片段的起始时刻和终止时刻，导致提取到的视频片段的起始时刻和/或终止时刻不准确，故本示例先通过上述视频片段提取方法从所述视频中提取出初始视频片段，并根据所述初始视频片段的起始时刻，确定出第一候选区域，并在所述第一候选区域截取出起始时刻不同的多个所述第一类视频片段(即候选起始视频片段)；根据所述初始视频片段的终止时刻，确定出第二候选区域，并在所述第二候选区域截取出终止时刻不同的多个所述第二类视频片段(即候选终止视频片段)。

例如，根据初始视频片段的起始时刻和终止时刻，确定出第一候选区域和第二候选区域，以预设步长(例如每0.1秒)在所述第一候选区域均匀选取多个起始时刻，根据所述多个起始时刻，截取出多个所述第一类视频片段；以预设步长(例如每0.1秒)在所述第二候选区域均匀选取多个终止时刻，根据所述多个终止时刻，截取出多个所述第二类视频片段。

在本示例中，所述根据所述初始视频片段的起始时刻，从所述视频中确定出第一候选区域，包括：

所述根据所述初始视频片段的终止时刻，从所述第一视频中确定出第二候选区域，包括：

示例性地，可根据初始视频片段的起始时刻和终止时刻，以起始时刻为中心时刻，从视频中截取3秒的视频片段作为所述第一候选区域；以终止时刻为中心时刻，从视频中截取3秒的视频片段作为所述第二候选区域。

步骤S402，将所述多个候选视频片段输入至机器学习模型中，利用所述机器学习模型的特征提取模块提取所述候选视频片段的视频特征；将所述候选视频片段的视频特征输入所述机器学习模型的评分模块，得到所述评分模块输出的表征所述多个候选视频片段的截取是否满足截取要求的评分值；

在本示例中，可通过将从所述第一候选区域截取的多个第一类视频片段和从所述第二候选区域截取的多个第二类视频片段输入至机器学习模型中，得到所述机器学习模型输出的第一类视频片段的评分值和第二类视频片段的评分值。

步骤S403，根据所述多个候选视频片段的评分值，确定最大评分值对应的候选视频片段的片段参数；基于所述最大评分值对应的候选视频片段的片段参数，从所述视频中截取出目标视频片段；

在本示例中，根据所述第一类视频片段的评分值，确定出最大评分值对应的第一类视频片段；将所述初始视频片段的起始时刻调整为所述最大评分值对应的第一类视频片段对应的起始时刻；根据所述第二类视频片段的评分值，确定出最大评分值对应的第二类视频片段；将所述初始视频片段的终止时刻调整为所述最大评分值对应的第二类视频片段对应的终止时刻，得到目标视频片段。

步骤S404，确定所述最大评分值对应的候选视频片段内的所有视频帧是否来自同一个镜头；当所述最大评分值对应的候选视频片段内的视频帧来自不同镜头时，根据不同所述镜头切换时间对应的临界视频帧，重新确定所述候选视频片段的片段参数；根据重新确定后的所述候选视频片段的片段参数，调整所述目标视频片段的片段参数。

在本示例中，所述重新确定所述候选视频片段的片段参数，包括：

重新确定后的所述候选视频片段的起始时刻对应于所述临界视频帧，或者，重新确定后的所述候选视频片段的终止时刻对应于所述临界视频帧。

可以理解的是，在从所述视频中截取出目标视频片段后，对所述最大评分值对应的第一类视频片段进行镜头边界检测，若在所述最大评分值对应的第一类视频片段内的所有视频帧来自不同镜头，即所述最大评分值对应的第一类视频片段内存在镜头边界，将所述第一类视频片段的起始时刻调整为所述镜头切换时间对应的临界视频帧。

对所述最大评分值对应的第二类视频片段进行镜头边界检测，若在所述最大评分值对应的第二类视频片段内所有视频帧来自不同镜头，即所述最大评分值对应的第二类视频片段内存在镜头边界，将所述第二类视频片段的终止时刻调整为所述镜头切换时间对应的临界视频帧。

根据调整后的第一类视频片段的起始时刻和所述调整后的第二类视频片段的终止时刻，对所述目标视频片段的起始时刻和终止时刻进行调整。

本公开实施例还提供一种视频片段的截取装置。图6是根据一示例性实施例示出的一种视频片段的截取装置的结构示意图，如图6所示，所述视频片段的截取装置100包括：

截取模块101，用于从视频中截取出多个候选视频片段；其中，不同的所述候选视频片段的起始时刻和终止时刻的至少其中之一不同；

网络评分模块102，用于将所述多个候选视频片段输入至机器学习模型，得到表征所述多个候选视频片段的截取是否满足截取要求的评分值；根据所述多个候选视频片段的评分值，确定最大评分值对应的候选视频片段的片段参数；其中，所述片段参数包括所述候选视频片段的起始时刻、终止时刻以及片段时长的至少其中之一；

所述截取模块101，还用于基于所述最大评分值对应的候选视频片段的片段参数，从所述视频中截取目标视频片段。

可选地，所述候选视频片段包括以下至少之一：

可选地，所述截取模块101，用于：

从所述视频中截取出初始视频片段；

和/或，

可选地，所述截取模块101，还用于：

可选地，所述网络评分模块102，用于：

可选地，所述装置还包括：检测模块103，用于：

所述截取模块101还用于：

可选地，所述装置还包括：获取模块，用于获取多个视频和所述多个视频的标注信息；所述标注信息至少包括：所述视频中的标注视频片段和所述标注视频片段的起始时刻和终止时刻；

预处理模块，用于基于所述多个视频的标注信息，对所述多个视频进行预处理，得到初始模型的训练样本集；

网络训练模块，用于将所述训练样本集中的视频片段输入至初始模型中，得到表征所述视频片段的截取是否满足截取要求的预测评分值；

确定模块，用于基于所述视频片段的预测评分值，确定所述初始模型的损失函数值；根据所述初始模型的损失函数值，对所述初始模型的待训练参数进行调整，得到机器学习模型。

可选地，所述预处理模块，用于：

可选地，所述网络训练模块，用于：

可选地，所述确定模块，用于：

可选地，所述确定模块，还用于：

根据所述第三排序损失值和所述第四排序损失值的和，确定所述初始模型的第二损失函数。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种视频片段的截取装置的框图。例如，装置800可以是移动电话，移动电脑等。

参照图7，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种视频片段的截取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述候选视频片段包括以下至少之一：

3.根据权利要求2所述的方法，其特征在于，所述从视频中截取出多个候选视频片段，包括：

从所述视频中截取出初始视频片段；

和/或，

4.根据权利要求3所述的方法，其特征在于，所述根据所述初始视频片段的起始时刻，从所述第一视频中确定出第一候选区域，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述初始视频片段的终止时刻，从所述第一视频中确定出第二候选区域，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述多个候选视频片段输入至机器学习模型，得到表征所述多个候选视频片段的截取是否满足截取要求的评分值，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，在所述将所述多个候选视频片段输入至机器学习模型之前，所述方法还包括：

获取多个视频和所述多个视频的标注信息；所述标注信息至少包括：所述视频中的标注视频片段和所述标注视频片段的起始时刻和终止时刻；

根据所述初始模型的损失函数值，对所述初始网络的待训练参数进行调整，得到机器学习模型。

9.根据权利要求8所述的方法，其特征在于，所述基于所述多个视频的标注信息，对所述多个视频进行预处理，得到初始模型的训练样本集，包括：

10.根据权利要求9所述的方法，其特征在于，所述将所述训练样本集中的视频片段输入至初始模型中，得到表征所述视频片段的截取是否满足截取要求的预测评分值，包括：

11.根据权利要求10所述的方法，其特征在于，所述基于所述视频片段的预测评分值，确定所述初始模型的损失函数值，包括：

12.根据权利要求11所述的方法，其特征在于，所述基于所述第一类标注视频片段的第一预测评分值，所述第二类标注视频片段的第一预测评分值和所述第三类标注视频片段的第一预测评分值，确定所述初始模型的第一损失函数值，包括：

13.根据权利要求11所述的方法，其特征在于，所述基于所述第一类标注视频片段的第二预测评分值、所述第二类标注视频片段的第二预测评分值和所述第三类标注视频片段的第二预测评分值，确定所述初始模型的第二损失函数值，包括：

14.一种视频片段的截取装置，其特征在于，包括：

15.一种视频片段的截取装置，其特征在于，包括：

处理器；

用于存储可执行指令的存储器；

其中，所述处理器被配置为：执行所述存储器中存储的可执行指令时，实现权利要求1至13中任一项所述的视频片段的截取方法。

16.一种非临时性计算机可读存储介质，当所述存储介质中的指令由视频片段的截取装置的处理器执行时，使得所述视频片段的截取装置能够执行权利要求1至13中任一项所述的视频片段的截取方法。