CN112069952A

CN112069952A - 视频片段提取方法、视频片段提取装置及存储介质

Info

Publication number: CN112069952A
Application number: CN202010866476.9A
Authority: CN
Inventors: 胡佳高; 王飞; 余鹏飞; 周代国
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2020-12-11
Anticipated expiration: 2040-08-25
Also published as: KR102456272B1; US11900682B2; EP3961490A1; KR20220026471A; US20220067383A1; JP7292325B2; JP2022037876A; CN112069952B

Abstract

本公开是关于一种视频片段提取方法、视频片段提取装置及存储介质。视频片段提取方法，包括：获取视频，并在视频中采样得到N个视频帧，N为正整数。将N个视频帧输入至预先训练的帧特征提取模型，得到N个视频帧中各视频帧的特征向量。基于预先训练的打分模型确定N个视频帧的分值。基于N个视频帧的分值在视频中提取目标视频片段。通过本公开提供的视频片段提取方法，可以在视频在线获取的过程中根据已获取的视频帧进行抽样提取，进而有助于节省打分模型的计算工作量，便于加快视频片段的提取速率，并当视频完全获取后能够快速提取用户所需的目标视频片段，便于提高用户的使用体验。

Description

视频片段提取方法、视频片段提取装置及存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频片段提取方法、视频片段提取装置及存储介质。

背景技术

视频片段的提取可以是针对该视频中的任意一个或多个比较短的视频片段进行提取。例如：提取视频中精彩的视频片段，可以提取该视频中内容相较于其他视频片段的内容更为精彩的一个或多个视频片段。

相关技术中，视频的视频片段提取需要将视频完全获取后，才根据视频的内容划分成多个视频片段，并且需要对各个视频片段进行打分，基于各视频片段的分值进行视频片段提取。但是通过该方法提取视频片段，需要通过大量的计算确定各个视频片段的分值，进而导致提取耗时长，影响用户的使用体验。

发明内容

为克服相关技术中存在的问题，本公开提供一种视频片段提取方法、视频片段提取装置及存储介质。

根据本公开实施例的第一方面，提供一种视频片段提取方法，包括：获取视频，并在所述视频中采样得到N个视频帧，所述N为正整数。将所述N个视频帧输入至预先训练的帧特征提取模型，得到所述N个视频帧中各视频帧的特征向量。基于预先训练的打分模型确定所述N个视频帧的分值，其中，针对所述N个视频帧中的第i帧，将以所述第i帧为中心的K个视频帧的特征向量输入至预先训练的打分模型中，得到所述第i帧的分值，所述i为小于或等于N的正整数，所述K为正整数。基于所述N个视频帧的分值在所述视频中提取目标视频片段。

在一实施例中，所述打分模型基于多帧融合层，以及正片段和负片段组成的数据对训练得到；所述正片段和负片段组成的数据对基于标注有目标属性的样本视频片段得到，所述目标属性包括表征视频片段为目标视频片段或非目标视频片段的属性，所述多帧融合层用于将K个视频帧的特征向量融合为固定长度向量。

在另一实施例中，基于所述多帧融合层，以及正片段和负片段组成的数据对训练得到所述打分模型，包括：在正片段中采样K个视频帧，基于帧特征提取模型提取所述正片段中采样的K个视频帧的特征向量，并在负片段中采样K个视频帧，基于帧特征提取模型提取所述负片段中采样的K个视频帧的特征向量，并基于所述多帧融合层将所述正片段中采样的K个视频帧的特征向量融合为具有固定长度向量的正片段特征向量，基于所述多帧融合层将所述负片段中采样的K个视频帧融合为具有固定长度向量的负片段特征向量。将所述正片段特征向量和所述负片段特征向量输入至双生神经网络，得到所述正片段的分值和所述负片段的分值，并利用排序损失进行反向传播，训练得到训练好的双生神经网络；其中，所述双生神经网络包括两个共享参数的多层感知机模型；所述打分模型为所述训练好的双生神经网络的一个多层感知机模型。

在又一实施例中，所述正片段和负片段组成的数据对采用如下方式基于标注有目标属性的样本视频片段得到：获取包括有一个或多个样本视频片段的样本视频。基于所述一个或多个样本视频片段所标注的目标属性，以及所述样本视频中包括的非样本视频片段，得到正片段和负片段组成的数据对，其中，正片段成为目标视频片段的可能性大于负片段成为目标视频片段的可能性。

在又一实施例中，基于所述一个或多个样本视频片段所标注的目标属性，以及所述样本视频中包括的非样本视频片段，得到正片段和负片段组成的数据对，包括：若所述一个或多个样本视频片段所标注的目标属性包括表征视频片段为目标视频片段的属性，则将所述一个或多个样本视频片段作为正片段，并在所述样本视频中包括的非样本视频片段中提取部分视频片段作为负片段，由所述正片段和所述负片段得到一个或多个数据对。或者若所述一个或多个样本视频片段所标注的目标属性包括表征视频片段为非目标视频片段的属性，则将所述一个或多个样本视频片段作为负片段，并在所述样本视频中包括的非样本视频片段中提取部分视频片段作为正片段，由所述正片段和所述负片段得到一个或多个数据对。或者若所述一个或多个样本视频片段所标注的目标属性包括表征视频片段为目标视频片段的属性和表征视频片段为非目标视频片段的属性，将标注表征目标视频片段属性的样本视频片段作为正片段，将标注表征非目标视频片段属性的样本视频片段作为负片段，并在所述样本视频中包括的非样本视频片段中提取部分视频片段，由所述正片段和所述负片段得到数据对，并由所述正片段和所述部分视频片段得到数据对，以及由所述负片段和所述部分视频片段得到数据对。

在又一实施例中，基于所述N个视频帧的分值在所述视频中提取目标视频片段，包括：基于固定长度的滑动窗口沿时序在所述视频上滑动得到的多个视频片段，其中，每一滑动窗口对应一个视频片段。针对每一滑动窗口，分别确定滑动窗口内包括的视频帧平均分值，并将所述视频帧平均分值作为滑动窗口对应视频片段的分值。基于所述多个视频片段的分值在所述多个视频片段中提取一个或多个目标视频片段。

根据本公开实施例的第二方面，提供一种视频片段提取装置，包括：获取单元，用于获取视频，并在所述视频中采样得到N个视频帧，所述N为正整数。特征提取单元，用于将所述N个视频帧输入至预先训练的帧特征提取模型，得到所述N个视频帧中各视频帧的特征向量。确定单元，用于基于预先训练的打分模型确定所述N个视频帧的分值，其中，针对所述N个视频帧中的第i帧，将以所述第i帧为中心的K个视频帧的特征向量输入至预先训练的打分模型中，得到所述第i帧的分值，所述i为小于或等于N的正整数，所述K为正整数。提取单元，用于基于所述N个视频帧的分值在所述视频中提取目标视频片段。

在一实施例中，所述视频片段提取装置还包括训练单元；所述训练单元，用于基于多帧融合层，以及正片段和负片段组成的数据对训练得到所述打分模型，所述正片段和负片段组成的数据对基于标注有目标属性的样本视频片段得到，所述目标属性包括表征视频片段为目标视频片段或非目标视频片段的属性，所述多帧融合层用于将K个视频帧的特征向量融合为固定长度向量。

在另一实施例中，所述训练单元采用下述方式基于所述多帧融合层，以及正片段和负片段组成的数据对训练得到所述打分模型：在正片段中采样K个视频帧，基于帧特征提取模型提取所述正片段中采样的K个视频帧的特征向量，并在负片段中采样K个视频帧，基于帧特征提取模型提取所述负片段中采样的K个视频帧的特征向量，并基于所述多帧融合层将所述正片段中采样的K个视频帧的特征向量融合为具有固定长度向量的正片段特征向量，基于所述多帧融合层将所述负片段中采样的K个视频帧融合为具有固定长度向量的负片段特征向量。将所述正片段特征向量和所述负片段特征向量输入至双生神经网络，得到所述正片段的分值和所述负片段的分值，并利用排序损失进行反向传播，训练得到训练好的双生神经网络；其中，所述双生神经网络包括两个共享参数的多层感知机模型；所述打分模型为所述训练好的双生神经网络的一个多层感知机模型。

在又一实施例中，所述正片段和负片段组成的数据对采用如下方式基于所述一个或多个样本视频片段所标注的目标属性，以及所述样本视频中包括的非样本视频片段，得到正片段和负片段组成的数据对：若所述一个或多个样本视频片段所标注的目标属性包括表征视频片段为目标视频片段的属性，则将所述一个或多个样本视频片段作为正片段，并在所述样本视频中包括的非样本视频片段中提取部分视频片段作为负片段，由所述正片段和所述负片段得到一个或多个数据对；或者若所述一个或多个样本视频片段所标注的目标属性包括表征视频片段为非目标视频片段的属性，则将所述一个或多个样本视频片段作为负片段，并在所述样本视频中包括的非样本视频片段中提取部分视频片段作为正片段，由所述正片段和所述负片段得到一个或多个数据对。或者若所述一个或多个样本视频片段所标注的目标属性包括表征视频片段为目标视频片段的属性和表征视频片段为非目标视频片段的属性，将标注表征目标视频片段属性的样本视频片段作为正片段，将标注表征非目标视频片段属性的样本视频片段作为负片段，并在所述样本视频中包括的非样本视频片段中提取部分视频片段，由所述正片段和所述负片段得到数据对，并由所述正片段和所述部分视频片段得到数据对，以及由所述负片段和所述部分视频片段得到数据对。

在又一实施例中，所述提取模块采用下述方式基于所述N个视频帧的分值在所述视频中提取目标视频片段：基于固定长度的滑动窗口沿时序在所述视频上滑动得到的多个视频片段，其中，每一滑动窗口对应一个视频片段。针对每一滑动窗口，分别确定滑动窗口内包括的视频帧平均分值，并将所述视频帧平均分值作为滑动窗口对应视频片段的分值。基于所述多个视频片段的分值在所述多个视频片段中提取一个或多个目标视频片段。

根据本公开实施例的第三方面，提供一种视频片段提取装置，包括：存储器，用于存储指令；以及处理器，用于调用所述存储器存储的指令执行上述任意一项所述的视频片段提取方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其中存储有指令，所述指令被处理器执行时，执行上述任意一项所述的视频片段提取方法。

本公开的实施例提供的技术方案可以包括以下有益效果：通过本公开提供的视频片段提取方法，可以在视频在线获取的过程中根据已获取的视频帧进行抽样提取，进而有助于节省打分模型的计算工作量，便于加快视频片段的提取速率。且基于视频帧的精彩程度分值，可以在获取视频帧同时比较视频各部分之间的精彩程度，从而当视频完全获取后能够快速提取用户所需的目标视频片段，便于提高用户的使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种视频片段提取方法的流程图。

图2是根据一示例性实施例示出的一种打分模型训练方法的流程图。

图3是根据一示例性实施例示出的另一种打分模型训练方法示意图。

图4是根据一示例性实施例示出的一种确定数据对的方法流程图。

图5是根据一示例性实施例示出的一种样本视频标注示意图。

图6是根据一示例性实施例示出的另一种样本视频标注示意图。

图7是根据一示例性实施例示出的又一种样本视频标注示意图。

图8是根据一示例性实施例示出的一种视频片段提取装置框图。

图9是根据一示例性实施例示出的另一种视频片段提取装置框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例提供的视频片段提取方法，应用于进行目标视频片段提取的场景，例如进行精彩视频片段提取的场景。比如：为手机相册中生成用户视频的精彩视频片段，作为预览图展示给用户的场景；也可以是小视频应用中，获取小视频的精彩视频片段生成gif图，作为视频封面展示给用户的场景；还可以对于用户在线观看的视频，在播放的同时在后台计算各个时刻的精彩程度，在用户观看完视频后立刻弹出该视频中的精彩视频片段，以供用户进行精彩回顾。

相关技术中，视频的视频片段提取需要将视频在离线状态下完全获取后，且根据视频的内容划分成多个视频片段，进而对各个视频片段进行视频特征提取，计算各个视频片段的精彩程度分数。从而确定需要提取的视频片段。通过该方法提取视频片段，需要待视频完全获取后进行提取操作。并且逐视频片段进行视频片段特征提取时，需要通过大量的计算进行确定，耗时长，无法快速获取需要的提取的视频片段，从而影响用户的使用体验。

有鉴于此，在本公开实施例提供一种视频片段提取方法，在该视频片段提取方法中使用的视频片段提取模型训练时可以基于帧特征向量进行训练，进而有助于减轻打分模型的计算量，有利于提高打分速率。且因模型计算量小，有助于在手机、平板、电脑等终端中进行部署，便于用户随时使用。

在本公开中提供的视频片段提取方法，可以基于采样的视频帧的特征向量输入至打分模型得到各视频帧的分值，并基于各视频帧的分值进行目标视频片段的提取。其中，采用的打分模型是基于帧特征向量训练得到的，打分模型结构简单，计算量低，有助于快速输出各视频帧的分值，进而根据各视频帧的分值提取目标视频片段时，能够在短时间内进行快速提取，缩短提取进程，从而有助于提升用户的使用体验。

图1是根据一示例性实施例示出的一种视频片段提取方法的流程图，如图1所示，视频片段提取方法，包括以下步骤S11至步骤S14。

在步骤S11中，获取视频，并在视频中采样得到N个视频帧。

针对不同时长的视频，采样的视频帧的数量可以不同。在本公开实施例中，针对视频帧的采样可以有多种形式。

在一实施例中，视频帧的采样方式可以是通过预设时间阶梯，进行等时间采样，进而无需考虑视频的总时间长度，仅需根据时间间隔进行采样即可，进而有助于降低采样算法，加快视频帧的采样速率。例如：根据预设时间阶梯，根据获取的视频需要每间隔2秒采样一个视频帧，则针对该视频中的第2秒、第4秒、第6秒、第8秒，以此类推，每间隔两秒采样一次视频帧，直至该视频结束。若该视频有10秒，则得到5个视频帧。在一例中，当视频未加载完全时，可以针对当前已加载的视频帧进行采样，进而可以在视频加载的过程中，仅以延迟视频几帧的情况下开始计算该视频各时刻的分值，无须等待至视频获取完全，进而有助于实现在线准实时计算，从而缩短提取目标视频片段的进程，有利于提升用户的使用体验。

在另一实施例中，视频帧的采样方式可以是通过预设指定采样的视频帧数量，进而进行视频帧采样。有助于在计算视频帧的特征向量时，能够节省特征向量提取时间，便于特征向量提取模型计算，加快目标视频片段的提取进程。在一例中，可以将视频根据指定的视频帧数量进行均匀取样，进而有助于区分各时刻之间对应的视频内容，便于基于视频帧的分数进行快速提取目标视频片段。例如：需要获取5个视频帧，针对10秒的视频，则可以每隔两秒进行一次采样。针对15秒的视频，则可以每隔三秒进行一次采样。

在步骤S12中，将N个视频帧输入至预先训练的帧特征提取模型，得到N个视频帧中各视频帧的特征向量。

在本公开实施例中，将得到的N个视频帧分别输入至训练好的帧特征提取模型中，得到各视频帧对应的特征向量，进而有助于打分模型能够根据得到的各视频帧的特征向量进行打分，便于评估各视频帧对应在视频中各时刻的分值，从而有助于提取用户所需的目标视频片段。帧特征模型可以是标准的卷积神经网络(Convolutional Neural Networks，CNN)，也可以是在线视频理解模型，如Temporal Shift Module for Efficient VideoUnderstanding(TSM)。在利用训练好的CNN进行帧特征提取时，可以将该网络分类层前一层的输出向量作为输入的视频帧的帧特征向量。在利用训练好的在线TSM进行帧特征提取时，可以取其基网络(backbone)的最后一层输出作为特征向量，在本公开中不进行限定。

在步骤S13中，基于预先训练的打分模型确定N个视频帧的分值。

在本公开实施例中，通过训练好的打分模型，将得到的N个视频帧的帧特征向量输入该打分模型中，进而得到各个视频帧的分值。打分模型可以是根据各个视频帧的图像内容的精彩程度进行打分。针对同一视频的不同视频帧，打分模型输出的分值越高，其内容的精彩程度越高。各个分值之间的相对大小可以表征为各个视频帧的内容之间的相对精彩程度差异。通过得到的各个视频帧的分值，能够直观的区分各个视频帧的内容之间的相对精彩程度，进而有助于快速提取用户所需的目标视频片段。

在本公开中，每个视频帧通过训练好的打分模型得到的分值，是基于以该视频帧当前时刻为中心获取的多个视频帧的融合特征向量所得到。在计算N个视频帧中的第i帧的分值时，基于第i帧在视频中对应的时刻位置，在第i帧的前后时刻分别获取多个视频帧，得到K个视频帧，进而基于K个视频帧的融合特征向量所输出的分值作为当前第i帧的分值。其中，i为小于或等于N的正整数，K为正整数。在计算当前视频帧的分值时，结合其周围的视频帧的帧特征向量，有助于得到的分值更具有准确性，进而根据得到的分值进行目标视频片段提取时，使得到的目标视频片段内容与该分值对应的内容相符，从而有助于避免目标视频片段误提取或者漏提取的可能。例如：当前视频帧的内容在视频对应的时刻中属于普通视频片段，该时刻前后均处精彩视频片段，此刻仅是瞬间过度。则基于当前视频帧前后提取的视频帧共同计算当前帧的分值，则有助于避免目标视频片段漏提取的可能性。在一例中，为得到的分值更具有准确性，可以在第i帧的前后时刻获取相同数量的视频帧，例如，在第i帧所在的时刻前获取[i-(K/2)]个视频帧，在第i帧所在的时刻后获取[i+(K/2)-1]个视频帧，且进行均匀采样，进而得到的分值更贴合当前视频帧所在的视频片段的分值，更具有准确性，便于消除异常数据。在又一例中，第i帧属于该视频的第一帧时，则可默认第一帧前的[i-(K/2)]个视频帧的特征向量为0或者与第一帧后获取的[i+(K/2)-1]个视频帧的特征向量相同，进而有助于对视频帧的打分能够顺利进行，便于逐帧进行评估。

在步骤S14中，基于N个视频帧的分值在视频中提取目标视频片段。

在本公开实施例中，根据用户的需求，基于得到的各个视频帧的分值，提取用户所需的目标视频片段。

在本公开实施例中，在一个视频中，具有待提取的目标视频片段也具有非目标视频片段。目标视频片段具有目标视频片段属性，非目标视频片段也具有非目标视频片段的属性。例如，对于目标视频片段为精彩视频片段时，视频中具有相对最为精彩的视频片段的同时，也具有相对最不精彩的视频片段。用户需求不同，所需的目标视频片段不同。为便于根据获取的视频快速提取用户所需的目标视频片段，可以针对获取的视频进行采样，进而得到N个视频帧，N为正整数。通过打分模型能够快速得到各个视频帧的分值，并基于各个视频帧的分值进行评估，确定所需提取的目标视频片段。

通常目标视频片段可以是视频中的一个或多个视频片段，并具有目标视频片段属性。比如，精彩视频片段是视频中的一个或多个相对较短的视频片段，内容相较于其他视频片段的内容更为精彩，更吸引人。例如：以篮球比赛视频为例，该视频中的灌篮、扣杀等视频片段为该篮球比赛视频中的精彩视频片段，普通带球等视频片段则为非精彩视频片段，镜头切换时的黑幕、动画等则为最不精彩的视频片段。

本公开实施例中以目标视频片段为精彩视频片段为例进行说明。对于视频中的多个视频帧基于分值进行精彩视频片段提取，由于在计算各视频帧的分数时，还结合其周围时刻的视频帧共同进行评价，进而得到的分数能够代表该视频帧前后小范围内的视频片段的平均精彩度。且基于视频帧的分值确定提取目标视频片段的精彩度，相较于计算整个视频片段的分值计算量更小，更有助于在短时间内快速评估，进而提供合适的目标视频片段。例如：若用户需要该视频中最精彩的视频片段，则可以根据各个视频帧的分值，将分值最高的视频帧所在的视频片段作为目标视频片段。在一例中，若用户需要多个精彩视频片段时，则可以将各个视频帧基于对应的分值进行排序，将分数相对较高的多个视频帧所在的视频片段作为目标视频片段。

通过上述实施例，基于采样的视频帧代替视频片段通过训练好的打分模型进行打分，能够有效减少打分模型的计算量，进而加快打分的计算速率，提高提取目标视频片段的进程。从而有助于提升用户的使用体验。

在一实施例中，目标视频片段可以基于固定长度的滑动窗口沿时序在视频上滑动进行提取，滑动窗口每次滑动时所覆盖的范围即为一个视频片段。即，滑动窗口每次滑动，滑动窗口末尾位置滑动到滑动窗口起始位置时，则生成一个视频片段。针对每一滑动窗口，根据在该滑动窗口内包括的各视频帧分值，得到该滑动窗口的平均分值，进而将平均分值作为该滑动窗口对应视频片段的分值。从而根据用户需求，基于多个片段的分值在多个片段中提取一个或多个目标片段。以获取精彩视频片段为例，利用固定长度的滑动窗口沿时序在视频上滑动，计算窗口内所有视频帧的精彩程度分数的平均值，作为该窗口对应视频片段的精彩程度得分。分数最高的滑动窗口所对应的视频片段即为该视频的精彩片段。当需要提取多个精彩片段时，可以根据各滑动窗口对应的分值，将分值相对较高的视频片段进行提取。为避免各视频片段之间重复度较高，可在提取视频片段前，利用非极大值机制算法消除重叠度较高的滑动窗口所对应的视频片段，进而使提取的视频片段之间彼此分散，从而有利于提升用户在观看提取的视频片段时的观看体验。

本公开实施例中打分模型可以是基于多帧融合层，以及正片段和负片段组成的数据对预先训练得到。

图2是根据一示例性实施例示出的一种打分模型训练方法的流程图，如图2所示，打分模型训练方法包括以下步骤S21至步骤S24。

在步骤S21中，获取视频，并在视频中采样得到N个视频帧。

在步骤S22中，将N个视频帧输入至预先训练的帧特征提取模型，得到N个视频帧中各视频帧的特征向量。

在步骤S23中，确定将K个视频帧的特征向量融合为固定长度向量的多帧融合层。

在本公开实施例中，以目标视频片段为精彩视频片段为例进行说明。为便于通过打分模型得到的视频帧的分数与该视频帧所在的视频片段的内容的精彩程度相对应。在获取第i帧的特征向量时，需同时获取第i帧为中心的(K-1)个视频帧的特征向量，进而有助于提高输出分值的可靠性。因此，在训练打分模型前，需先确定能够将K个视频帧的特征向量融合为固定长度向量的多帧融合层，进而使经过多帧融合层输出的长度向量能够进入打分模型中进行打分。例如：一个视频帧对应一个N维向量，当同时获取7个视频帧时，则得到的是7个N维向量。因此，为保证打分模型的正常运行以及分值的可靠度，需要通过多帧融合层，将得到的7个N维向量进行融合，得到适用于作为打分模型输入的M维向量。多帧融合层可以采用串联、池化或者向量相加等方式将多个N维向量融合成一个固定长度向量。

在步骤S24中，基于多帧融合层，以及正片段和负片段组成的数据对训练得到打分模型。

在本公开实施例中，打分模型是基于确定的多帧融合层、正片段和负片段组成的数据对训练所得到的。在得到数据对的过程中，将得到的标注视频片段基于视频片段内容进行标注，进而确定标注视频片段属于正片段还是负片段。目标属性包括表征视频片段为目标视频片段或非目标视频片段的属性。在一例中，目标视频片段可以为视频中最精彩的视频片段；非目标视频片段为视频中最不精彩的视频片段。从而在得到数据对时，能够明确区分正片段和负片段之间的差异，以便训练打分模型时，打分模型能够快速学习不同属性之间的视频片段特征。进一步的，基于对标注视频片段的属性标注，能够提高训练数据的准确度，并减少噪声数据对模型训练的干扰，进而有助于提高训练数据的干净度，使训练模型的结构更简单，无需采用额外的网络模型计算标注视频片段的可靠性。从而有助于打分模型的训练过程能够加快收敛，且有助于节省成本。

在一实施场景中，训练打分模型时，在正片段中随机采样或者均具采样K个视频帧。进而如图3所示，将得到的K个视频帧通过帧特征提取模型进行帧特征向量提取，得到正片段中各视频帧对应的帧特征向量。进而将得到的K个帧特征向量通过多帧融合层进行融合，得到具有固定长度向量的正片段特征向量，记为{P₁,P₂,...P_k}。在负片段中随机采样或者均具采样K个视频帧。进而将得到的K个视频帧通过帧特征提取模型进行帧特征向量提取，得到负片段中各视频帧对应的帧特征向量。进而将得到的K个帧特征向量通过多帧融合层进行融合，得到具有固定长度向量的负片段特征向量，记为{N₁,N₂,...,N_K}。

打分模型可以是由多层感知机模型得到的。通过复制一份多层感知机模型，并共享参数，得到双生神经网络。进而通过对双生神经网络的训练，得到训练好的打分模型。将得到的正片段特征向量和负片段特征向量输入至双生神经网络中进行训练时，能够同时将获取的正片段特征向量和负片段特征向量作为输入，得到正片段的得分和负片段的得分，根据正片段与负片段的得分计算损失值，从而通过反向传播算法训练双生神经网络。在进行训练时，将每组数据对中的正片段的特征向量{P₁,P₂,...P_k}和负片段的特征向量{N₁,N₂,...,N_K}输入至双生神经网络中，得到正片段的分值S(P)，负片段的分值S(N)。且正片段对应输出的分值应该高于负片段对应输出的分值。进而利用排序损失函数将打分模型输出的分值进行反向传播，以调整双生神经网络中各参数以及权重比例，从而提升打分模型的准确率，加快训练过程中双生神经网络的收敛速率。排序损失可记为如下形式：L({P₁,P₂,...P_k},{N₁,N₂,...,N_K})＝max(0,1-S(P)+S(N))。

本公开实施例以下将结合实际应用对打分模型的训练过程进行举例说明。

在训练打分模型前，预先得到适用于打分模型训练的数据对，进而便于在训练打分模型时，打分模型能够区分不同视频内容之间的精彩程度差异，以便提高打分的准确度。且用于训练的数据对是基于样本视频中标注目标属性的标注片段进行得到的，进而有助于避免噪声数据的混入，提高训练数据的质量，从而有利于降低训练难度，加快训练进程。

图4是根据一示例性实施例示出的一种确定数据对的方法流程图，如图4所示，确定数据对的方法，包括以下步骤S31至步骤S32。

在步骤S31中，获取包括有一个或多个标注视频片段的样本视频。

在一实施例中，训练打分模型前，预先获取一定量的样本视频，得到样本视频集，使打分模型能够具有足够的训练数据进行训练。

在步骤S32中，基于一个或多个标注视频片段所标注的目标属性，以及样本视频中包括的非标注视频片段，得到正片段和负片段组成的数据对。

在该样本视频集中，各样本视频均具有一个或多个标注视频片段和非标注视频片段。将每个样本视频中的标注视频片段基于内容进行标注，明确各个标注视频片段的目标属性。基于标注的目标属性，将各标注视频片段和各非标注视频片段得到成正片段和负片段组成的数据对。其中，正片段成为目标视频片段的可能性大于负片段成为目标视频片段的可能性。基于正片段和负片段之间的差异，便于打分模型能够准确区分目标视频片段和非目标视频片段和非标注视频片段间的特征差异，进而有助于提高打分模型的准确度。

在一例中，为便于打分模型能够更好地区分同一视频中不同视频片段之间的精彩程度差异，在得到数据对时，正片段和负片段可以来自同一样本视频，进而能够得到各个视频片段之间的相对分值差异，从而有助于区分同一视频中各个视频片段之间的精彩程度，且有助于充分利用样本视频。例如：针对扣篮集锦视频，每一段扣篮视频片段都属于精彩视频片段。通过利用来自同一样本视频的正片段和负片段得到的数据对训练得到的打分模型，能够得到各个扣篮视频片段分值之间的相对大小，进而有助于区分出相对更为精彩的扣篮视频片段，从而便于目标视频提取。

本公开实施例以下以目标视频片段为精彩视频片段为例进行说明。

其中，在标注样本视频中的目标属性为目标视频片段属性的标注视频片段时，根据样本视频的内容，将该样品视频中最为精彩的视频片段作为具有目标视频片段属性的视频片段，即，该视频片段比同样本视频中其他时刻的内容更精彩更吸引人。进而将该视频片段的起止时刻进行标注，得到具有目标视频片段属性的标注视频片段。在标注样本视频中的非目标属性为目标视频片段属性的标注视频片段时，根据样本视频的内容，将该样品视频中最不精彩的视频片段作为具有非目标视频片段属性的视频片段，即，该视频片段比同样本视频中其他时刻的内容更不精彩更不吸引人。进而将该视频片段的起止时刻进行标注，得到具有非目标视频片段属性的标注视频片段。

在一例中，样本视频可以包括一个或多个目标属性为目标视频片段属性的标注视频片段，以及非标注视频片段。在进行得到数据对时，可以将一个或多个标注视频片段作为正片段，并在样本视频中包括的非标注视频片段中提取部分视频片段作为负片段。若样本视频中仅有一个标注视频片段，且非标注视频片段时长与标注视频片段时长相近时，则可以直接将标注视频片段作为正片段，非标注视频片段作为负片段，以得到训练时所需的数据对。例如：如图5所示，视频片段2为目标属性为目标视频片段属性的标注视频片段，视频片段1和视频片段3为非标注视频片段。进而在得到数据对时，可以得到视频片段2为正片段，视频片段1为负片段的数据对和视频片段2为正片段，视频片段3为负片段的数据对。若样本视频中仅有一个标注视频片段，但非标注视频片段时长过长时，则可将非标注视频片段划分成指定时长范围内的多个子非标注视频片段，进而可以得到多个以标注视频片段为正片段，子非标注视频片段为负片段的数据对。从而有助于降低标注难度，并可以通过标注少量标注视频片段获取大量的训练数据对。例如：样本视频时长为60秒，其中，标注视频片段为10秒，非标注视频片段为50秒。为便于获取大量的训练数据对，可将非标注视频片段划分成多个与标注视频片段时长相接近的子非标注视频片段。若将非标注视频片段划分成多个不超过10秒的子非标注视频片段，则至少可以得到5个子非标注视频片段，例如：子非标注视频片段1、子非标注视频片段2、子非标注视频片段3、子非标注视频片段4、子非标注视频片段5。进而可以得到5对用于分数模型训练的数据对：标注视频片段为正片段，子非标注视频片段1为负片段的数据对；标注视频片段为正片段，子非标注视频片段2为负片段的数据对；标注视频片段为正片段，子非标注视频片段3为负片段的数据对；标注视频片段为正片段，子非标注视频片段4为负片段的数据对；标注视频片段为正片段，子非标注视频片段5为负片段的数据对。

在另一例中，样本视频可以包括一个或多个目标属性为非目标视频片段属性的标注视频片段，以及非标注视频片段。在进行得到数据对时，可以将一个或多个标注视频片段作为负片段，并在样本视频中包括的非标注视频片段中提取部分视频片段作正负片段。若样本视频中仅有一个标注视频片段，且非标注视频片段时长与标注视频片段时长相近时，则可以直接将标注视频片段作为负片段，非标注视频片段作为正片段，以得到训练时所需的数据对。例如：如图6所示，视频片段3为目标属性为非目标视频片段属性的标注视频片段，视频片段1和视频片段2为非标注视频片段。进而在得到数据对时，可以得到视频片段1为正片段，视频片段3为负片段的数据对和视频片段2为正片段，视频片段3为负片段的数据对。若样本视频中仅有一个标注视频片段，但非标注视频片段时长过长时，则可将非标注视频片段划分成指定时长范围内的多个子非标注视频片段，进而可以得到多个以标注视频片段为负片段，子非标注视频片段为正片段的数据对。从而有助于降低标注难度，并可以通过标注少量标注视频片段获取大量的训练数据对。

在又一例中，样本视频可以包括一个或多个目标属性为目标视频片段属性的标注视频片段、一个或多个目标属性为非目标视频片段属性的标注视频片段，以及非标注视频片段。在得到数据对时，若将标注表征目标视频片段属性的标注视频片段作为正片段，则将标注表征非目标视频片段属性的标注视频片段作为负片段，或者将非标注视频片段提取部分视频片段作为负片段。若将标注表征非目标视频片段属性的标注视频片段作为负片段，则将标注表征目标视频片段属性的标注视频片段作为正片段，或者将非标注视频片段提取部分视频片段作为正片段。例如：如图7所示，视频片段2为表征目标视频片段属性的标注视频片段，视频片段3为目标属性为非目标视频片段属性的标注视频片段，视频片段1为非标注视频片段。进而在得到数据对时，可以得到视频片段2为正片段，视频片段1为负片段的数据对；得到视频片段2为正片段，视频片段3为负片段的数据对；得到视频片段1为正片段，视频片段3为负片段的数据对。

通过得到带有标注的训练数据对，能够有效减少噪声数据的产生，避免噪声数据的干扰，进而有助于提高训练数据的干净度，使打分模型结构简单，且无需采用其他网络模型或者添加其他参数以提高训练数据的可靠性，训练难度低，有助于在训练过程中加快打分模型的收敛。

基于相同的构思，本公开实施例还提供一种视频片段提取装置。

可以理解的是，本公开实施例提供的视频片段提取装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图8是根据一示例性实施例示出的一种视频片段提取装置框图。参照图8，该视频片段提取装置100包括获取单元101，特征提取单元102、确定单元103和提取单元104。

获取单元101，用于获取视频，并在视频中采样得到N个视频帧，N为正整数。

特征提取单元102，用于将N个视频帧输入至预先训练的帧特征提取模型，得到N个视频帧中各视频帧的特征向量。

确定单元103，用于基于预先训练的打分模型确定N个视频帧的分值，其中，针对N个视频帧中的第i帧，将以第i帧为中心的K个视频帧的特征向量输入至预先训练的打分模型中，得到第i帧的分值，i为小于或等于N的正整数，K为正整数。

提取单元104，用于基于N个视频帧的分值在视频中提取目标视频片段。

在一实施例中，视频片段提取装置还包括训练单元。训练单元，用于基于融合层，以及正片段和负片段组成的数据对训练得到打分模型，正片段和负片段组成的数据对基于标注有目标属性的样本视频片段得到，目标属性包括表征视频片段为目标视频片段或非目标视频片段的属性，多帧融合层用于将K个视频帧的特征向量融合为固定长度向量。

在另一实施例中，训练单元采用下述方式基于多帧融合层，以及正片段和负片段组成的数据对训练得到打分模型：在正片段中采样K个视频帧，基于帧特征提取模型提取正片段中采样的K个视频帧的特征向量，并在负片段中采样K个视频帧，基于帧特征提取模型提取负片段中采样的K个视频帧的特征向量，并基于多帧融合层将正片段中采样的K个视频帧的特征向量融合为具有固定长度向量的正片段特征向量，基于多帧融合层将负片段中采样的K个视频帧融合为具有固定长度向量的负片段特征向量。将正片段特征向量和负片段特征向量输入至双生神经网络，得到正片段的分值和负片段的分值，并利用排序损失进行反向传播，训练得到训练好的双生神经网络；其中，双生神经网络包括两个共享参数的多层感知机模型；打分模型为训练好的双生神经网络的一个多层感知机模型。

在又一实施例中，正片段和负片段组成的数据对采用如下方式基于标注有目标属性的样本视频片段得到：获取包括有一个或多个样本视频片段的样本视频。基于一个或多个样本视频片段所标注的目标属性，以及样本视频中包括的非样本视频片段，得到正片段和负片段组成的数据对，其中，正片段成为目标视频片段的可能性大于负片段成为目标视频片段的可能性。

在又一实施例中，正片段和负片段组成的数据对采用如下方式基于一个或多个样本视频片段所标注的目标属性，以及样本视频中包括的非样本视频片段，得到正片段和负片段组成的数据对：若一个或多个样本视频片段所标注的目标属性包括表征视频片段为目标视频片段的属性，则将一个或多个样本视频片段作为正片段，并在样本视频中包括的非样本视频片段中提取部分视频片段作为负片段，由正片段和负片段得到一个或多个数据对；或者若一个或多个样本视频片段所标注的目标属性包括表征视频片段为非目标视频片段的属性，则将一个或多个样本视频片段作为负片段，并在样本视频中包括的非样本视频片段中提取部分视频片段作为正片段，由正片段和负片段得到一个或多个数据对。或者若一个或多个样本视频片段所标注的目标属性包括表征视频片段为目标视频片段的属性和表征视频片段为非目标视频片段的属性，将标注表征目标视频片段属性的样本视频片段作为正片段，将标注表征非目标视频片段属性的样本视频片段作为负片段，并在样本视频中包括的非样本视频片段中提取部分视频片段，由正片段和负片段得到数据对，并由正片段和部分视频片段得到数据对，以及由负片段和部分视频片段得到数据对。

在又一实施例中，提取模块采用下述方式基于N个视频帧的分值在视频中提取目标视频片段：基于固定长度的滑动窗口沿时序在视频上滑动得到的多个视频片段，其中，每一滑动窗口对应一个视频片段。针对每一滑动窗口，分别确定滑动窗口内包括的视频帧平均分值，并将视频帧平均分值作为滑动窗口对应视频片段的分值。基于多个视频片段的分值在多个视频片段中提取一个或多个目标视频片段。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的另一种视频片段提取装置框图。例如，视频片段提取装置200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，视频片段提取装置200可以包括以下一个或多个组件：处理组件202，存储器204，电力组件206，多媒体组件208，音频组件210，输入/输出(I/O)的接口212，传感器组件214，以及通信组件216。

处理组件202通常控制视频片段提取装置200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件202可以包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在视频片段提取装置200的操作。这些数据的示例包括用于在视频片段提取装置200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件206为视频片段提取装置200的各种组件提供电力。电力组件206可以包括电源管理系统，一个或多个电源，及其他与为视频片段提取装置200生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述视频片段提取装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件208包括一个前置摄像头和/或后置摄像头。当视频片段提取装置200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风(MIC)，当视频片段提取装置200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

I/O接口212为处理组件202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件214包括一个或多个传感器，用于为视频片段提取装置200提供各个方面的状态评估。例如，传感器组件214可以检测到视频片段提取装置200的打开/关闭状态，组件的相对定位，例如所述组件为视频片段提取装置200的显示器和小键盘，传感器组件214还可以检测视频片段提取装置200或视频片段提取装置200一个组件的位置改变，用户与视频片段提取装置200接触的存在或不存在，视频片段提取装置200方位或加速/减速和视频片段提取装置200的温度变化。传感器组件214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于视频片段提取装置200和其他设备之间有线或无线方式的通信。视频片段提取装置200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，视频片段提取装置200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器204，上述指令可由视频片段提取装置200的处理器220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

进一步可以理解的是，本公开中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，除非有特殊说明，“连接”包括两者之间不存在其他构件的直接连接，也包括两者之间存在其他元件的间接连接。

进一步可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频片段提取方法，其特征在于，所述视频片段提取方法包括：

获取视频，并在所述视频中采样得到N个视频帧，所述N为正整数；

将所述N个视频帧输入至预先训练的帧特征提取模型，得到所述N个视频帧中各视频帧的特征向量；

基于预先训练的打分模型确定所述N个视频帧的分值，其中，针对所述N个视频帧中的第i帧，将以所述第i帧为中心的K个视频帧的特征向量输入至预先训练的打分模型中，得到所述第i帧的分值，所述i为小于或等于N的正整数，所述K为正整数；

基于所述N个视频帧的分值在所述视频中提取目标视频片段。

2.根据权利要求1所述的视频片段提取方法，其特征在于，所述打分模型基于多帧融合层，以及正片段和负片段组成的数据对训练得到；

所述正片段和负片段组成的数据对基于标注有目标属性的样本视频片段得到，所述目标属性包括表征视频片段为目标视频片段或非目标视频片段的属性，所述多帧融合层用于将K个视频帧的特征向量融合为固定长度向量。

3.根据权利要求2所述的视频片段提取方法，其特征在于，基于所述多帧融合层，以及正片段和负片段组成的数据对训练得到所述打分模型，包括：

在正片段中采样K个视频帧，基于帧特征提取模型提取所述正片段中采样的K个视频帧的特征向量，并在负片段中采样K个视频帧，基于帧特征提取模型提取所述负片段中采样的K个视频帧的特征向量，并

基于所述多帧融合层将所述正片段中采样的K个视频帧的特征向量融合为具有固定长度向量的正片段特征向量，基于所述多帧融合层将所述负片段中采样的K个视频帧融合为具有固定长度向量的负片段特征向量；

将所述正片段特征向量和所述负片段特征向量输入至双生神经网络，得到所述正片段的分值和所述负片段的分值，并利用排序损失进行反向传播，训练得到训练好的双生神经网络；其中，所述双生神经网络包括两个共享参数的多层感知机模型；所述打分模型为所述训练好的双生神经网络的一个多层感知机模型。

4.根据权利要求2或3所述的视频片段提取方法，其特征在于，所述正片段和负片段组成的数据对采用如下方式基于标注有目标属性的样本视频片段得到：

获取包括有一个或多个样本视频片段的样本视频；

基于所述一个或多个样本视频片段所标注的目标属性，以及所述样本视频中包括的非样本视频片段，得到正片段和负片段组成的数据对，其中，正片段成为目标视频片段的可能性大于负片段成为目标视频片段的可能性。

5.根据权利要求4所述的视频片段提取方法，其特征在于，基于所述一个或多个样本视频片段所标注的目标属性，以及所述样本视频中包括的非样本视频片段，得到正片段和负片段组成的数据对，包括：

若所述一个或多个样本视频片段所标注的目标属性包括表征视频片段为目标视频片段的属性，则将所述一个或多个样本视频片段作为正片段，并在所述样本视频中包括的非样本视频片段中提取部分视频片段作为负片段，由所述正片段和所述负片段得到一个或多个数据对；或者

若所述一个或多个样本视频片段所标注的目标属性包括表征视频片段为非目标视频片段的属性，则将所述一个或多个样本视频片段作为负片段，并在所述样本视频中包括的非样本视频片段中提取部分视频片段作为正片段，由所述正片段和所述负片段得到一个或多个数据对；或者

若所述一个或多个样本视频片段所标注的目标属性包括表征视频片段为目标视频片段的属性和表征视频片段为非目标视频片段的属性，将标注表征目标视频片段属性的样本视频片段作为正片段，将标注表征非目标视频片段属性的样本视频片段作为负片段，并在所述样本视频中包括的非样本视频片段中提取部分视频片段，由所述正片段和所述负片段得到数据对，并由所述正片段和所述部分视频片段得到数据对，以及由所述负片段和所述部分视频片段得到数据对。

6.根据权利要求1所述的视频片段提取方法，其特征在于，基于所述N个视频帧的分值在所述视频中提取目标视频片段，包括：

基于固定长度的滑动窗口沿时序在所述视频上滑动得到的多个视频片段，其中，每一滑动窗口对应一个视频片段；

针对每一滑动窗口，分别确定滑动窗口内包括的视频帧平均分值，并将所述视频帧平均分值作为滑动窗口对应视频片段的分值；

基于所述多个视频片段的分值在所述多个视频片段中提取一个或多个目标视频片段。

7.一种视频片段提取装置，其特征在于，所述视频片段提取装置包括：

获取单元，用于获取视频，并在所述视频中采样得到N个视频帧，所述N为正整数；

特征提取单元，用于将所述N个视频帧输入至预先训练的帧特征提取模型，得到所述N个视频帧中各视频帧的特征向量；

确定单元，用于基于预先训练的打分模型确定所述N个视频帧的分值，其中，针对所述N个视频帧中的第i帧，将以所述第i帧为中心的K个视频帧的特征向量输入至预先训练的打分模型中，得到所述第i帧的分值，所述i为小于或等于N的正整数，所述K为正整数；

提取单元，用于基于所述N个视频帧的分值在所述视频中提取目标视频片段。

8.根据权利要求7所述的视频片段提取装置，其特征在于，所述视频片段提取装置还包括训练单元；

所述训练单元，用于基于多帧融合层，以及正片段和负片段组成的数据对训练得到所述打分模型，所述正片段和负片段组成的数据对基于标注有目标属性的样本视频片段得到，所述目标属性包括表征视频片段为目标视频片段或非目标视频片段的属性，所述多帧融合层用于将K个视频帧的特征向量融合为固定长度向量。

9.根据权利要求8所述的视频片段提取装置，其特征在于，所述训练单元采用下述方式基于所述多帧融合层，以及正片段和负片段组成的数据对训练得到所述打分模型：

10.根据权利要求8或9所述的视频片段提取装置，其特征在于，所述正片段和负片段组成的数据对采用如下方式基于标注有目标属性的样本视频片段得到：

获取包括有一个或多个样本视频片段的样本视频；

11.根据权利要求10所述的视频片段提取装置，其特征在于，所述正片段和负片段组成的数据对采用如下方式基于所述一个或多个样本视频片段所标注的目标属性，以及所述样本视频中包括的非样本视频片段，得到正片段和负片段组成的数据对：

12.根据权利要求7所述的视频片段提取装置，其特征在于，所述提取模块采用下述方式基于所述N个视频帧的分值在所述视频中提取目标视频片段：

13.一种视频片段提取装置，其中，所述视频片段提取装置包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行如权利要求1-6中任意一项所述的视频片段提取方法。

14.一种计算机可读存储介质，其中存储有指令，所述指令被处理器执行时，执行如权利要求1-6中任意一项所述的视频片段提取方法。