CN111177460A

CN111177460A - 提取关键帧的方法及装置

Info

Publication number: CN111177460A
Application number: CN201911335651.5A
Authority: CN
Inventors: 梁涛; 张晗; 马连洋; 衡阵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-19
Anticipated expiration: 2039-12-20
Also published as: CN111177460B

Abstract

本申请的实施例提供了一种提取关键帧的方法及装置。该提取关键帧的方法包括：获取目标视频；将所述目标视频作为关键帧提取模型的输入，通过所述关键帧提取模型预测得到所述目标视频的关键帧；其中，所述关键帧提取模型是根据样本视频所对应第一损失和所对应第二损失对神经网络模型进行训练得到的，所述第一损失表征了所述样本视频的标注关键帧和所述神经网络模型为所述样本视频预测得到的预测关键帧之间的差异，所述第二损失表征了所述样本视频的标注类型与所述神经网络模型为所述样本视频预测得到的预测类型之间的差异。有效保证了所提取的关键帧与目标视频的内容相关。

Description

提取关键帧的方法及装置

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种提取关键帧的方法及装置。

背景技术

一般为了便于用户快速了解视频的主要内容，在视频推荐页面，向用户呈现视频的个性化封面。而该个性化封面是根据视频中反映视频主要内容的关键帧来生成的。

对于视频而言，其中包括重复的视频帧、不包括角色主体的视频帧。那么，对应的，并不是视频中的任一视频帧均可以作为视频的关键帧。

现有技术中，一般是通过按秒随机抽取视频帧，以将所抽取的视频帧作为视频的关键帧。显然，随机抽取的方式并不能保证所抽取到的视频帧均为视频的关键帧，导致所提取的视频帧并不能反映视频的内容。

由上可知，如何提取到反映视频内容的关键帧是现有技术中亟待解决的技术问题。

发明内容

本申请的实施例提供了一种提取关键帧的方法及装置，进而至少在一定程度上可以实现提取到反映视频内容的关键帧。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种提取关键帧的方法，包括：获取目标视频；将所述目标视频作为关键帧提取模型的输入，通过所述关键帧提取模型预测得到所述目标视频的关键帧；

其中，所述关键帧提取模型是根据样本视频所对应第一损失和所对应第二损失对神经网络模型进行训练得到的，所述第一损失表征了所述样本视频的标注关键帧和所述神经网络模型为所述样本视频预测得到的预测关键帧之间的差异，所述第二损失表征了所述样本视频的标注类型与所述神经网络模型为所述样本视频预测得到的预测类型之间的差异。

根据本申请实施例的一个方面，提供了一种提取关键帧的装置，包括：获取模块，用于获取目标视频；

预测模块，用于将所述目标视频作为关键帧提取模型的输入，通过所述关键帧提取模型预测得到所述目标视频的关键帧；

其中，所述提取模型是根据样本视频所对应第一损失和所对应第二损失对神经网络模型进行训练得到的，所述第一损失表征了所述样本视频的标注关键帧和所述神经网络模型为所述样本视频预测得到的预测关键帧之间的差异，所述第二损失表征了所述样本视频的标注类型与所述神经网络模型为所述样本视频预测得到的预测类型之间的差异。

在本申请的一些实施例所提供的技术方案中，由于第一损失与样本视频的视频类型相关，第二损失与样本视频的关键帧相关，根据样本视频所对应的第一损失和所对应的第二损失进行神经网络模型的训练，实现了在关键帧提取过程中引入了视频类型这一属性。从而，训练所得到的关键帧提取模型在为目标视频进行关键帧预测过程中，对于不同视频类型的目标视频会针对性地进行关键帧预测。

也即是说，通过样本视频的第一损失和第二损失对神经网路模型进行训练使该模型具备针对不同内容的视频针对性进行关键帧预测的能力，从而使得所预测得到的关键帧与视频内容相关，可以充分表达视频的内容信息。关键帧提取模型在具备针对不同类型的视频针对性进行关键帧预测的能力的基础上，为目标视频所预测得到的关键帧可以充分表达目标视频的内容信息。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图；

图2是根据本申请一个实施例示出的提取关键帧的方法的流程图；

图3是根据一实施例示出的步骤230之前步骤在一实施例中的流程图；

图4是图3对应实施例的步骤310之前步骤在一实施例中的流程图；

图5是图4对应实施例的步骤430在一实施例中的流程图；

图6是图3对应实施例的步骤330之前步骤在一实施例中的流程图；

图7是图6对应实施例的步骤610在一实施例中的流程图；

图8是图6对应实施例的步骤610在另一实施例中的流程图；

图9是图6对应实施例的步骤610和630在又一实施例中的流程图；

图10是根据一示例性实施例示出的神经网络模型的结构图；

图11是根据一示例性实施例示出的提取关键帧的装置的框图；

图12示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构可以包括服务端110和至少一终端130，终端130可以是智能手机、笔记本电脑、平板电脑、台式电脑等计算机设备。

基于终端130与服务端110之间的通信连接，终端130将目标视频发送到服务端110，由服务端110按照本申请的方案预测该目标视频的关键帧。

应当说明的是，本申请提取关键帧的方法，不限于在服务端110中部署相应的处理逻辑，其也可以是在其它机器中部署相应的处理逻辑，例如，在具备计算能力的终端设备部署。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示出了根据本申请的一个实施例的提取关键帧的方法的流程图，该提取关键帧的方法可以由具有计算处理功能的设备来执行。参照图2所示，该提取关键帧的方法至少包括步骤210至步骤230，详细介绍如下：

步骤210，获取目标视频。

目标视频并不特指某一视频，而是泛指待进行关键帧提取的视频，换言之，任一待提取关键帧的视频均可以作为本申请中的目标视频。步骤230，将目标视频作为关键帧提取模型的输入，通过关键帧提取模型预测得到目标视频的关键帧；其中，关键帧提取模型是根据样本视频所对应第一损失和所对应第二损失对神经网络模型进行训练得到的，第一损失表征了样本视频的标注关键帧和神经网络模型为样本视频预测得到的预测关键帧之间的差异，第二损失表征了样本视频的标注类型与神经网络模型为样本视频预测得到的预测类型之间的差异。

关键帧是指角色或者物体运动或变化中的关键动作所处的那一视频帧。对于视频而言，其中包括多个视频帧，而该多个视频帧中可能包括图像内容重复的视频帧、不存在主体的视频帧，也就是说，视频的视频帧中并不是每一个视频帧均可以作为该视频的关键帧。

在本申请的技术方案中，通过对构建的神经网络模型进行训练所得到的关键帧提取模型来进行关键帧预测，从而，将目标视频输入至关键帧提取模型后，由关键帧提取模型根据预测结果输出的视频帧，作为目标视频的关键帧，实现为目标视频提取关键帧。

值得一提的是，对于任一视频，该视频的关键帧可能是一视频帧，也可能是多个视频帧。因此，在目标视频输入至关键帧提取模型后，关键帧提取模型可能所确定的关键帧可以是一视频帧，也可以包括多个视频帧。

其中，神经网络模型是预先构建的模型，该神经网络模型是由大量的神经元广泛互相连接而形成的，该神经网络模型可以进一步被换分成若干神经层。该神经网络模型一种或者多种模型，例如卷积神经网络、循环神经网络、长短期记忆神经网络、门控循环神经网络、全连接神经网络、分类器等。

样本视频是指用于对神经网络模型进行训练所使用的视频。值得一提的，对于模型的训练，通常需要使用大量的训练数据进行训练。因此，在本申请的方案中，样本视频并不特指某一视频，而是泛指在用于对神经网络模型进行训练的的视频。同样的，在视频训练的过程中，所使用的视频的数量是众多的，因此，该众多的视频均可以被称为样本视频。

在对预先构建的神经网络模型进行训练之前，针对每一样本视频，进行了标签标注。在本申请的方案中，对于每一样本视频标注了两种标签。

一标签为关键帧标签，该关键帧标签用于标识样本视频中的关键帧，因此，被标注关键帧标签的视频帧即为标注关键帧帧。

另一标签为类型标签，该类型标签用于指示样本视频所属的视频类型，为样本视频所标注类型标签所指示的视频类型即为样本视频的标注类型。值得一提的是，在本公开的方案中，视频类型是按照视频的内容来分类而确定的。

可以理解的是，为确定样本视频所属的视频类型，预先设定视频类型集合，该视频类型集合中包括所预先设定的若干视频类型。在一实施例中，视频类型集合中包括的视频类型可以包括：电影、电视、综艺、动漫、纪录片等；在其他实施例中，还可以进一步进行细分，得到更多的视频类型。例如，视频类型集合中包括的视频类型包括：古装、现代、科幻、神话；又例如，视频类型集合中的包括的视频类型包括：警匪、武侠、都市、军旅、搞笑等类型。

视频类型集合中的视频类型可以根据实际需要进行设定，在此不进行具体限定，以上所列举的视频类型仅仅是示例性举例，不能认为是对本申请使用范围的限制。

基于设定的视频类型集合，对每一样本视频进行分类，确定样本视频所属的视频类型，并对应为样本视频标注类型标签。在一实施例中，为保证神经网络模型的训练效果，根据视频类型集合对样本视频所进行的分类是通过人员观看视频后，对视频进行分类，从而保证了样本视频的标注类型与样本视频的内容相符。

为了进行关键帧标签的标注，由人员观看样本视频后，根据样本视频中各视频帧的内容，从视频中选取视频帧作为视频的关键帧，所选取的视频帧即为样本视频的标注关键帧。

在本申请的方案中，在样本视频输入至预构建的神经网路模型后，神经网络模型一方面输出为样本视频所预测得到的关键帧(即预测关键帧)，另一方面输出为样本视频所预测得到的视频类型(即预测类型)。也即是说，神经网络模型一方面进行关键帧预测，另一方面进行内容类型预测。

可以理解的是，神经网络模型至少包括两分类层，其中一分类层用于输出样本视频的视频类型，另一分类层用于输出样本视频的关键帧。

其中，预测关键帧是指由神经网络模型对样本视频进行关键帧预测，而为样本视频预测得到的关键帧。

预测类型是指由神经网络模型对样本视频进行内容类型预测，为样本视频所预测得到的视频类型。

在神经网络模型的训练过程中，针对神经网络模型为样本视频预测得到的预测关键帧和预测得到的预测类型，根据预测关键帧和样本视频的标注关键帧即可对应确定第一损失；同理，根据预测类型和样本视频的标注类型即可对应确定第二损失。

由于第一损失与样本视频的视频类型相关，第二损失与样本视频的关键帧相关，从而根据样本视频所对应的第一损失和所对应的第二损失进行神经网络模型的训练，从而，指导神经网络模型在关键帧预测的过程中关注样本视频的视频类型，换言之，在关键帧提取过程中引入了视频类型这一属性。从而，训练所得到的关键帧提取模型在为目标视频进行关键帧预测过程中，对于不同视频类型的目标视频会针对性地进行关键帧预测。

也即是说，通过样本视频的第一损失和第二损失对神经网路模型进行训练的目的是使该模型具备针对不同内容的视频针对性进行关键帧预测的能力，从而使得所预测得到的关键帧与视频内容相关，可以充分表达视频的内容信息。

在此基础上，关键帧提取模型在具备针对不同类型的视频针对性进行关键帧预测的能力的基础上，为目标视频所预测得到的关键帧可以充分表达样本视频的内容信息。

整体来说，在对神经网络模型进行训练的过程中，采用了多任务训练的方式，在进行关键帧预测的主训练任务的基础上，增加了视频内容识别的辅训练任务。通过辅训练任务为关键帧预测这一主训练任务提供互补信息，使得神经网络模型在进行关键帧提取过程中能够考虑视频本身的视频类型属性信息，可以针对不同视频类型的视频针对性地提取相应的关键帧。

在一实施例中，如图3所示，步骤210之前，该方法还包括：

步骤310，获取样本视频对应的第一损失；以及

步骤330，获取样本视频对应的第二损失。

如上所描述，样本视频对应的第一损失是根据标注关键帧和预测关键帧来确定的，从而，在神经网络模型为样本视频预测得到标注关键帧后，即可对应确定样本视频对应的第一损失。

同理，在神经网络模型为样本视频预测得到预测类型后，对应根据该预测类型和样本视频的标注类型确定第二损失。和

步骤350，根据第一损失和第二损失计算得到目标损失。

根据第一损失和第二损失按照预设公式即可计算得到目标损失。在一实施例中，将第一损失和第二损失进行加权，得到目标损失。步骤370，根据目标损失对神经网络模型的参数进行调整，直至满足收敛条件得到关键帧提取模型。

通过第一损失和第二损失来进行目标损失的计算，并按照目标损失调整神经网络模型的参数，从而，可以保证在进行参数调整后，神经网络模型将视频类型引入关键帧的提取过程。

对于一样本视频，在根据目标损失调整神经网络模型的参数后，通过参数调整后的神经网络模型再次针对该样本视频进行关键帧预测。

在一实施例中，如果新预测得到的预测关键帧相较于标注关键帧的差异满足第一预设条件，例如低于设定的差异阈值，则继续用下一样本视频进行神经网络模型的训练；反之，若新预测得到的预测关键帧相较于标注关键帧的不满足第一预设条件，则继续重复上述步骤370中参数调整和再次为该样本视频进行关键帧预测的过程。

换言之，在该实施例中，在用样本视频训练神经网络模型的过程中，是否需要对网络模型的参数进行调整，取决于为样本视频所预测得到的预测关键帧与样本视频对应的标注关键帧之间的差异，如果该差异不满足第一预设条件，则表明所预测得到的预测关键帧与标注关键帧差异较大，则需要调整神经网络模型的参数。反之，如果该差异满足第一预设条件，则表明所预测得到的预测关键帧与标注关键帧之间的差异较小，该预测关键帧与标注关键帧基本相符，从而该预测关键帧可以作为样本视频的关键帧。

对应于此种情况，在步骤370之前，还包括：

判断第一损失是否满足第一预设条件，以在第一损失不满足第一预设条件时才执行步骤370；反之，若第一损失满足第一预设条件，则用下一样本视频进行神经网络模型的训练。

在另一实施例中，在步骤370之后，通过进行参数调整后的神经网络模型再次为该样本视频进行关键帧预测和内容类型预测，从而根据新预测得到的预测关键帧和预测类型再次进行第一损失和第二损失的计算，进而新确定目标损失，如果该目标损失不满足第二预设条件，则再次调整神经网络模型的参数，并重复上述过程；反之，如果该目标损失满足第二预设条件，则用下一样本视频进行该神经网络模型的训练。

其中第二预设条件可以是为不调整参数而为目标损失设定的一参数范围，即如果该目标损失位于该参数范围内，则视为目标损失满足第二预设条件；如果该目标损失位于该参数范围外，则视为目标损失不满足第二预设条件。

对应于此种情况，则步骤370之前，该方法还包括：

判断样本视频的目标损失是否满足第二预设条件；若满足，则用下一样本视频进行该模型的训练；反之，若不满足，则执行步骤370。

神经网络模型的训练是否结束，取决于该神经网络模型是否满足收敛条件，如果满足，则停止训练，将满足收敛条件时的神经网络模型作为关键帧提取模型；反之，如果不满足，则继续用样本视频进行训练。

其中，收敛条件可以是神经网络模型的损失函数收敛，也可以是神经网络模型的进行关键帧预测的准确度，在此不进行具体限定。

通过如上的训练过程，指导神经网络模型对于不同视频类型的视频更够针对性关注此视频类型的关键性特征信息，从而使得训练所得到的关键帧提取模型为目标视频所提取得到的关键帧可以充分表达视频内容信息。

在一实施例中，神经网络模型包括卷积神经网络层，如图4所示，步骤310之前，该方法还包括：

步骤410，通过卷积神经网络层对样本视频中的视频帧进行特征提取，获得各视频帧的内容特征向量。

卷积神经网络层由卷积神经网络(Convolutional Neural Network，CNN)构成，该卷积神经网络层用于对样本视频中的各个视频帧进行特征提取。该卷积神经网络层可以进一步包括卷积层、池化层和全连接层，

卷积层用于对输入卷积神经网络层且来源于样本视频的各个视频帧的像素信息进行卷积计算；池化层用于对卷积层输出的特征降维。

对于卷积神经网络层而言，输入至该卷积神经网络层的信息是各视频帧的像素信息。在卷积层网络中，通过卷积层的卷积计算、池化层的降维计算、以及全连接层的分类，即对应输出视频帧的特征向量。

由于卷积神经网络层通过卷积层的卷积操作来提取视频帧的特征，一般通过多层卷积，从而使得为视频帧所提取到的特征越全局化，而不限于视频帧的低级视觉特征(例如颜色、纹理、位置等)，而所提取的特征是关注于视频帧内容的高级视觉特征(例如视频帧中的人、动物、植物、建筑物等)。

举例来说，对于男孩遛狗的视频帧，通过该卷积网络层，可以识别到该视频帧中包括男孩(而不是女孩)和狗(而不是其他动物)，从而，该内容特征向量即是对所识别出男孩和狗的抽象表达。

也就是说，通过卷积神经网络层，使得所提取的特征是表达视频帧中内容信息的高级视觉特征，而不是图像的低级视觉特征。

步骤430，根据各视频帧的内容特征向量进行关键帧预测，得到样本视频的预测关键帧。

由于通过卷积神经网络层对应得到用于进行视频帧中内容抽象表达的内容特征向量，从而，以此为基础，对应进行关键帧预测。

所进行的关键帧预测，是指根据各视频帧的内容特征向量分别预测该视频帧为关键帧的概率，进而，根据所预测得到的概率来确定关键帧，例如将概率超过设定阈值的视频帧视为样本图像的关键帧，即获得预测关键帧。

步骤450，根据预测关键帧和为样本视频标注的标注关键帧计算得到第一损失。

为样本视频标注的标注关键帧视为样本视频的实际关键帧。由于预测关键帧是由神经网络模型所预测得到的，其可能与样本视频的实际关键帧存在差异。因此，根据预测关键帧与标注关键帧计算得到第一损失。

在一实施例中，根据预测关键帧和标注关键帧进行交叉熵计算得到第一损失。

值得一提的是，在本公开的方案中预测关键帧以及标注关键帧可以通过预设的视频帧标识来进行表示，一视频帧标识唯一标识一视频帧。在此基础上，第一损失的计算，可以是根据预测关键帧所对应视频帧标识和标注关键帧所对应的视频帧标识来计算得到的。

在本实施例中，由于通过卷积神经网络层来提取目标视频各视频帧的特征，可以保证所提取的特征是反映视频帧内容信息的高级视觉特征，使得所提取的特征更充分表示视频帧的信息，有利于提高后续根据关键帧的预测准确度。

在一实施例中，步骤410之前，该方法还包括：

对样本视频进行分帧，得到样本视频的视频帧。

如上所描述，卷积神经网络层处理的对象是视频帧，因此，步骤410之前，对样本视频进行分帧，以得到样本视频的视频帧。值得一提的是，所得到样本视频的视频帧实际上是视频帧序列，即将各个视频帧按照在样本视频中的先后顺序进行排列。

在一实施例中，神经网络模型还包括双向门控循环层、第一全连接层和第一分类层，如图5所示，步骤430，包括：

步骤510，通过双向门控循环层对各视频帧的内容特征向量进行关联特征提取，获得各视频帧的关联特征向量。

双向门控循环层由双向门控循环单元(Bidirectional Gated RecurrentUnit，Bi-GRU)构成。双向门控循环神经元是在门控循环神经元的基础上进行改进得到的。

门控循环神经元(Gated Recurrent Unit，GRU)有两个门，即一个重置门(resetgate)和一个更新门(update gate)，从直观上来说，重置门决定了如何将新的输入信息与前面的记忆(即历史信息)相结合，更新门定义了前面的记忆保存到当前时间步的量。

双向门控循环神经元的主要特点是增加了对未来信息的学习能力。Bi-GRU的主要结构是将一个GRU拆成两个方向，一个按照顺时序向前，另一个按照逆时序反向，但是两个GRU连接同一个输出层，从而使得双向门控循环层可以提取到相邻视频帧之间的关联特征，也就是说，通过双向门控循环层所得到视频帧的关联特征向量表征了该视频帧与相邻视频帧之间内在关联性。步骤530，通过第一全连接层对各视频帧的关联特征向量进行变换，获得第一特征向量。

全连接层(Fully Connected layers，FC)本质是将一个特征空间变换到另一个特征空间，目标空间的任一维都受到源空间每一维的影响。

在本申请的方案中，第一全连接层同样将源特征空间变换到目标特征空间，具体而言，即是将各个视频帧的关联特征向量按照如下方式：

Y＝f(WX+b)

进行变换，其中，f表示第一前连接层中节点的激活函数，W为权重矩阵，b为偏置常量。可以理解的是，第一全连接层中包括多个节点。对应的，所得到的第一特征向量即是对各个视频帧的关联特征向量进行变换后所得到的向量。

步骤550，通过第一分类层根据第一特征向量预测得到预测关键帧。

第一分类层通过softmax函数来进行分类预测。如上所描述，所进行的关键帧预测即分别计算各个视频帧为关键帧的概率，从而，根据各个视频帧的概率来确定预测关键帧。

具体而言，softmax函数将输入信息映射成为(0，1)范围内的值，也就是说，第一分类层将视频帧的第一特征向量所映射到(0，1)范围内的值即为该视频帧为关键帧的概率。

其中，softmax函数的函数表达式为：

其中，z_j＝Wx_j+b，x_j为第一全连接层的输出，W和b为该第一分类层的参数，在训练过程中，也可能涉及到调整W和b的值。

在一实施例中，如图6所示，步骤330之前，该方法还包括：

步骤610，根据各视频帧的特征向量进行内容类型预测，得到样本视频对应的预测类型，特征向量包括内容特征向量和关联特征向量中的至少一种。

如上所描述，视频帧的内容特征向量体现了视频帧自身的图像内容；视频帧的关联特征向量体现了该视频帧与相邻视频帧之间的关联性。

从而，对应根据视频帧的内容特征向量，或者根据视频帧的关联特征向量，或者结合内容特征向量和关联特征向量来进行内容类型的预测，确定样本视频对应的预测类型。

步骤630，根据预测类型和为样本视频标注的标注类型计算得到第二损失。

为样本视频标注的标注类型视为样本视频的真实视频类型。由于预测类型是由神经网络模型所预测得到的，其可能与样本视频的真实视频类型存在差异。因此，根据预测类型与标注类型计算第二损失。

在一实施例中，根据预测类型和标注类型进行交叉熵计算得到第二损失。

在一实施例中，神经网络模型还包括第二分类层，第二损失包括第一类型损失，预测类型包括第一预测类型；

在该实施例中，如图7所示，步骤610包括：

步骤710，根据各视频帧的内容特征向量计算得到第二特征向量。

该第二特征向量用于整体表征样本视频的特征，换言之，在步骤710中，所进行的计算，是将样本视频中各视频帧的内容特征向量进行整合，以得到可以表征样本视频整体特征的第二特征向量。

在一实施例中，在步骤710中，将各视频帧的内容特征向量进行加权平均，将加权平均的结果作为第二特征向量。

在其他实施例中，还可以将各视频帧的内容特征向量进行加权求和，将加权求和的结果作为第二特征向量，在此不进行具体限定。

在另一实施例中，神经网络模型还包括第二全连接层，在将各个视频帧的内容特征向量进行加权平均后，将加权平均后的向量输入至第二全连接层进行变换，将通过第二全连接层变换所得到的向量作为第二特征向量。

步骤730，通过第二分类层根据第二特征向量进行内容类型预测，得到样本视频对应的第一预测类型。

第二分类层通过softmax函数来进行内容类型预测，所进行的内容类型预测是根据第二特征向量预测该样本视频分别对应为样本类型集合中每一视频类型的概率，从而，根据所预测得到对应为每一视频类型的概率来确定第一预测类型，例如将概率最大值所对应的视频类型作为样本视频的第一预测类型。

举例来说，若视频类型集合中的视频类型包括：电影、电视剧、综艺。其中，根据样本视频的第二特征向量预测该样本视频归属为电影的概率为P1，该样本视频归属为电视剧的概率为P2，该样本视频归属为综艺的概率为P3。若在P1、P2和P3中，P3最大，则确定该样本视频的第一预测类型为综艺。

在该实施例中，步骤630包括：

根据第一预测类型和标注类型进行交叉熵计算，得到第一类型损失。

在本实施例中，由于第一预测类型时直接通过视频帧的内容特征向量来预测得到的，从而，根据第一类型损失和样本视频对应的第一损失来进行神经网络模型的训练，可以指导该神经网络模型针对不同视频类型的视频针对性地进行提取，实现了将样本视频的视频类型引入到神经网络模型的训练中。

在另一实施例中，神经网络模型还包括第三分类层，第二损失包括第二类型损失，预测类型包括第二预测类型；

在该实施例中，如图8所示，步骤610，包括：

步骤810，根据各视频帧的关联特征向量计算得到第三特征向量。

第三特征向量也是用于整体表征样本视频的特征。在步骤810中，所进行的计算，是将样本视频中各视频帧的关联特征向量进行整合，以得到可以表征样本视频整体特征的第三特征向量。

在一实施例中，在步骤810中，将各视频帧的关联特征向量进行加权平均，将加权平均的结果作为第三特征向量。

在其他实施例中，还可以将各视频帧的关联特征向量进行加权求和，将加权求和的结果作为第三特征向量，在此不进行具体限定。

在另一实施例中，神经网络模型还包括第三全连接层，在将各个视频帧的内容特征向量进行加权平均后，将加权平均后的向量输入至第三全连接层进行变换，将通过第三全连接层变换所得到的向量作为第二特征向量。

步骤830，通过第三分类层根据第三特征向量进行内容类型预测，得到样本视频对应的第二预测类型。

第三分类层通过softmax函数来进行内容类型预测，所进行的内容类型预测是根据第三特征向量预测该样本视频分别对应为样本类型集合中每一视频类型的概率，从而，根据所预测得到对应为每一视频类型的概率来确定第一预测类型，例如将概率最大值所对应的视频类型作为样本视频的第一预测类型。在该实施例中，步骤630包括：

根据第二预测类型和标注类型进行交叉熵计算，得到第二类型损失。

在实施例中，由于第二预测类型时直接通过视频帧的关联特征向量来预测得到的，从而，根据第二类型损失和样本视频对应的第一损失来进行神经网络模型的训练，可以指导该神经网络模型有针对性地挖掘不同视频类型的视频帧之间的内在关联性，实现了将样本视频的视频类型引入到神经网络模型的训练中。

在又一实施例中，神经网络模型还包括第二分类层和第三分类层，第二损失包括第三类型损失，预测类型包括第一预测类型和第二预测类型；在该实施例中，如图9所示，步骤610包括：

步骤910，通过第二分类层根据第二特征向量进行内容类型预测，获得样本视频对应的第一预测类型，第二特征向量是根据各视频帧的内容特征向量计算得到的；以及

步骤930，通过第三分类层根据第三特征向量进行内容类型预测，获得样本视频对应的第二预测类型，第三特征向量是根据各视频帧的关联特征向量计算得到的。

步骤910中第一预测类型的获取过程可以参照图7对应实施例的步骤710-730。

步骤930中第二预测类型的获取过程可以参照图8对应实施例的步骤810-830

在该实施例中，步骤630，包括：

步骤950，根据第一预测类型和标注类型进行交叉熵计算，得到第一类型损失；以及

步骤970，根据第二预测类型和标注类型进行交叉熵计算，得到第二类型损失；

步骤990，将第一类型损失和第二类型损失进行加权，得到第三类型损失。

在本实施例中，相当于同时将第一类型损失和第二类型损失作用到神经网络模型的训练中。由于将第一类型损失作用到神经网络模型的训练中，能够指导该神经网络模型针对性地提取不同视频类型的高级特征信息，而第二类型损失作用到神经网络模型的训练中，能够指导神经网络模型针对性地挖掘来源于不同视频类型视频的视频帧之间的内在关联性，二者同时作用到神经网络模型的训练中，可以使得神经网络模型既能够指导该神经网络模型针对性地提取不同视频类型的高级特征信息，又能够指导神经网络模型针对性地挖掘来源于不同视频类型视频的视频帧之间的内在关联性，进一步保证通过该训练过程所得到关键帧提取模型为目标视频所提取到的关键帧充分表达视频内容信息，保证所提取到关键帧与视频内容的相关性。

图10是根据一示例性实施例示出的神经网络模型的结构示意图。如图10所示，神经网络模型包括依次级联的卷积神经网络层1010、双向门控循环层1020、第一全连接层1030、第一分类层1040；以及依次级联于卷积神经网络层之后的第二全连接层1050、第二分类层1060；以及依次级联于双向门控循环层之后的第三全连接层1070、第三分类层1080。

在将样本视频输入至神经网络模型后，对该样本视频进行分帧，得到该样本视频的视频帧序列，具体包括顺序排列的视频帧1、视频帧2、视频帧3......视频帧n。

之后，将各视频帧输入至卷积神经网络层1010中，由卷积神经网络层进行卷积操作并分别输出各视频帧的内容特征向量cfv_1、cfv_2、cfv_3、...cfv_n。

其后，一方面，将各视频帧的内容特征向量进行加权平均，得到加权平均所得到的向量video_v1输入至第二全连接层中，由第二全连接层进行变换，得到第二特征向量，第二分类层1060根据第二特征向量进行内容类型预测，得到样本视频的第一预测类型。从而，根据第一预测类型和样本视频的标注类型计算第一类型损失。

另一方面，将各视频帧的内容特征向量输入至双向门控循环层1020中，由双向门控循环层1020视频帧之间关联特征的挖掘，得到各视频帧的关联特征向量rcfv_1、rcfv_2、...rcfv_n。

然后，一条支路是：将各视频帧的关联特征向量rcfv_1、rcfv_2、...rcfv_n输入至第一全连接层1030中，由第一全连接层1030进行变换，得到样本视频的第一特征向量，并将第一特征向量输入至第一分类层1040中，由第一分类层1040根据第一特征向量预测得到样本视频的预测关键帧。进而，根据样本视频的标注关键帧和预测关键帧计算得到第一损失。

另一条支路是：将各视频帧的关联特征向量rcfv_1、rcfv_2、...rcfv_n进行加权平均，并将加权平均所得到的向量video_v2输入至第三全连接层1070中，由第三全连接层1070进行变换得到样本视频的第三特征向量，并由第三分类层根据第三特征向量预测得到第二预测类型。进而，根据第二预测类型和样本视频的标注类型计算第二类型损失。

在得到第一损失、第一类型损失和第二类型损失的基础上，将第一损失、第一类型损失和第二类型损失进行加权得到目标损失。

从而按照目标损失来调整神经网络模型的参数。

对于其他样本视频，也按照上述的过程进行神经网络模型的训练，直至神经网络模型满足收敛条件，得到关键帧提取模型。

在关键帧提取模型的实际上线应用中，目标视频输入到关键帧帧提取模型后，先进行分帧，得到视频帧序列，然后依次经卷积神经网络层1010、双向门控循环层1020、第一全连接层1030和第一分类层1040，输出目标视频的关键帧。

在其他实施例中，该关键帧提取模型还可以通过第二分类层或第三分类层输出该目标视频的视频类型。也就是说，是否需要该关键帧提取模型在输入关键帧的基础上输出该目标视频的视频类型，可以根据实际需要进行设定，在此不进行具体限定。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的方法实施例。

图11是根据一实施例示出的一种提取关键帧的装置，如图11所示，该提取关键帧的装置1100包括：

获取模块1110，用于获取目标视频。

预测模块1130，用于将目标视频作为关键帧提取模型的输入，通过关键帧提取模型预测得到目标视频的关键帧。

其中，关键帧提取模型是根据样本视频所对应第一损失和所对应第二损失对神经网络模型进行训练得到的，第一损失表征了样本视频的标注关键帧和神经网络模型为样本视频预测得到的预测关键帧之间的差异，第二损失表征了样本视频的标注类型与神经网络模型为样本视频预测得到的预测类型之间的差异。

在一实施例中，该装置还包括：

第一损失获取模块，用于获取样本视频对应的第一损失，第一损失表征了为样本视频标注的标注关键帧和通过神经网络模型为样本视频预测得到的预测关键帧之间的差异；以及

第二损失获取模块，用于获取样本视频对应的第二损失，第二损失表征了为样本视频标注的标注类型和通过神经网络模型为样本视频预测得到的预测类型之间的差异；

目标损失计算模块，用于根据第一损失和第二损失计算得到目标损失；

参数调整模块，用于根据目标损失对神经网络模型的参数进行调整，直至满足收敛条件得到关键帧提取模型。

在一实施例中，神经网络模型包括卷积神经网络层，该装置还包括：

特征提取模块，用于通过卷积神经网络层对样本视频中的视频帧进行特征提取，获得各视频帧的内容特征向量；

关键帧预测模块，用于根据各视频帧的内容特征向量进行关键帧预测，得到样本视频的预测关键帧；

第一损失计算模块，用于根据预测关键帧和为样本视频标注的标注关键帧计算得到第一损失。

在一实施例中，该装置还包括：

分帧模块，用于对样本视频进行分帧，得到样本视频的视频帧。

在一实施例中，神经网络模型还包括双向门控循环层、第一全连接层和第一分类层，关键帧预测模块，包括：

关联特征提取单元，用于通过双向门控循环层对各视频帧的内容特征向量进行关联特征提取，获得各视频帧的关联特征向量；

变换单元，用于通过第一全连接层对各视频帧的关联特征向量进行变换，获得第一特征向量；

预测单元，用于通过第一分类层根据第一特征向量预测得到预测关键帧。

在一实施例中，该装置还包括：

类型预测模块，用于根据各视频帧的特征向量进行内容类型预测，得到样本视频对应的预测类型，特征向量包括内容特征向量和关联特征向量中的至少一种；

第二损失计算模块，用于根据预测类型和为样本视频标注的标注类型计算得到第二损失。

类型预测模块，包括：

第二特征向量计算单元，用于根据各视频帧的内容特征向量计算得到第二特征向量；

第一类型预测单元，用于通过第二分类层根据第二特征向量进行内容类型预测，得到样本视频对应的第一预测类型；

第二损失计算模块，包括：

第一类型损失计算单元，根据第一预测类型和标注类型进行交叉熵计算，得到第一类型损失。

类型预测模块，包括：

第三特征向量计算单元，用于根据各视频帧的关联特征向量计算得到第三特征向量；

第二类型预测单元，用于通过第三分类层根据第三特征向量进行内容类型预测，得到样本视频对应的第二预测类型；

第二损失计算模块，包括：

第二类型损失计算单元，用于根据第二预测类型和标注类型进行交叉熵计算，得到第二类型损失。

在另一实施例中，模型还包括第二分类层和第三分类层，第二损失包括第三类型损失，预测类型包括第一预测类型和第二预测类型；

类型预测模块，包括：

第一预测类型获得单元，用于通过第二分类层根据第二特征向量进行内容类型预测，获得样本视频对应的第一预测类型，第二特征向量是根据各视频帧的内容特征向量计算得到的；以及

第二预测类型获得单元，用于通过第三分类层根据第三特征向量进行内容类型预测，获得样本视频对应的第二预测类型，第三特征向量是根据各视频帧的关联特征向量计算得到的；

第二损失计算模块，包括：

第一类型损失获得单元，用于根据第一预测类型和标注类型进行交叉熵计算，得到第一类型损失；以及

第二类型损失获得单元，用于根据第二预测类型和标注类型进行交叉熵计算，得到第二类型损失；

加权单元，用于将第一类型损失和第二类型损失进行加权，得到第三类型损失。

上述装置中各个模块/单元的功能和作用的实现过程具体详见上述提取关键帧的方法中对应步骤的实现过程，在此不再赘述。

可以理解，这些模块/单元可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时，这些模块可以实施为一个或多个硬件模块，例如一个或多个专用集成电路。当以软件方式实现时，这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序。

需要说明的是，图12示出的电子设备的计算机系统1200仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图12所示，计算机系统1200包括中央处理单元(Central Processing Unit，CPU)1201，其可以根据存储在只读存储器(Read-Only Memory，ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(Random Access Memory，RAM)1203中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1203中，还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output，I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种提取关键帧的方法，其特征在于，包括：

获取目标视频；

将所述目标视频作为关键帧提取模型的输入，通过所述关键帧提取模型预测得到所述目标视频的关键帧；

2.根据权利要求1所述的方法，其特征在于，所述将所述目标视频作为关键帧提取模型的输入，通过所述关键帧提取模型预测得到所述目标视频的关键帧之前，所述方法还包括：

获取样本视频对应的第一损失；以及

获取所述样本视频对应的第二损失，；

根据所述第一损失和所述第二损失计算得到目标损失；

根据所述目标损失对所述神经网络模型的参数进行调整，直至满足收敛条件得到关键帧提取模型。

3.根据权利要求2所述的方法，其特征在于，所述神经网络模型包括卷积神经网络层，所述获取样本视频对应的第一损失之前，所述方法还包括：

通过所述卷积神经网络层对所述样本视频中的视频帧进行特征提取，获得各视频帧的内容特征向量；

根据所述各视频帧的内容特征向量进行关键帧预测，得到所述样本视频的预测关键帧；

根据所述预测关键帧和为所述样本视频标注的标注关键帧计算得到所述第一损失。

4.根据权利要求3所述的方法，其特征在于，所述通过所述卷积神经网络层对所述样本视频中的视频帧进行特征提取，获得各视频帧的内容特征向量之前，所述方法还包括：

对所述样本视频进行分帧，得到所述样本视频的视频帧。

5.根据权利要求3所述的方法，其特征在于，所述神经网络模型还包括双向门控循环层、第一全连接层和第一分类层，所述根据所述各视频帧的内容特征向量进行关键帧预测，得到所述样本视频的预测关键帧，包括：

通过所述双向门控循环层对各视频帧的内容特征向量进行关联特征提取，获得各视频帧的关联特征向量；

通过所述第一全连接层对所述各视频帧的关联特征向量进行变换，获得第一特征向量；

通过所述第一分类层根据所述第一特征向量预测得到所述预测关键帧。

6.根据权利要求5所述的方法，其特征在于，所述获取所述样本视频对应的第二损失之前，所述方法还包括：

根据各视频帧的特征向量进行内容类型预测，得到所述样本视频对应的预测类型，所述特征向量包括内容特征向量和关联特征向量中的至少一种；

根据所述预测类型和为所述样本视频标注的标注类型计算得到所述第二损失。

7.根据权利要求6所述的方法，其特征在于，所述神经网络模型还包括第二分类层，所述第二损失包括第一类型损失，所述预测类型包括第一预测类型；

所述根据各视频帧的特征向量进行内容类型预测，得到所述样本视频对应的预测类型，包括：

根据所述各视频帧的内容特征向量计算得到第二特征向量；

通过所述第二分类层根据所述第二特征向量进行内容类型预测，得到所述样本视频对应的第一预测类型；

所述根据所述预测类型和为所述样本视频标注的标注类型计算得到所述第二损失，包括：

根据所述第一预测类型和所述标注类型进行交叉熵计算，得到所述第一类型损失。

8.根据权利要求6所述的方法，其特征在于，所述神经网络模型还包括第三分类层，所述第二损失包括第二类型损失，所述预测类型包括第二预测类型；

根据所述各视频帧的关联特征向量计算得到第三特征向量；

通过所述第三分类层根据所述第三特征向量进行内容类型预测，得到所述样本视频对应的第二预测类型；

根据所述第二预测类型和所述标注类型进行交叉熵计算，得到所述第二类型损失。

9.根据权利要求6所述的方法，其特征在于，所述神经网络模型还包括第二分类层和第三分类层，所述第二损失包括第三类型损失，所述预测类型包括第一预测类型和第二预测类型；

通过所述第二分类层根据第二特征向量进行内容类型预测，获得所述样本视频对应的第一预测类型，所述第二特征向量是根据所述各视频帧的内容特征向量计算得到的；以及

通过所述第三分类层根据第三特征向量进行内容类型预测，获得所述样本视频对应的第二预测类型，所述第三特征向量是根据所述各视频帧的关联特征向量计算得到的；

根据所述第一预测类型和所述标注类型进行交叉熵计算，得到第一类型损失；以及

根据所述第二预测类型和所述标注类型进行交叉熵计算，得到第二类型损失；

将所述第一类型损失和所述第二类型损失进行加权，得到所述第三类型损失。

10.一种提取关键帧的装置，其特征在于，所述装置包括：

获取模块，用于获取目标视频；