CN112004033A

CN112004033A - 视频封面确定方法及装置、存储介质

Info

Publication number: CN112004033A
Application number: CN202011032416.3A
Authority: CN
Inventors: 王飞; 胡佳高; 余鹏飞; 周代国
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2020-11-27
Anticipated expiration: 2040-09-27
Also published as: CN112004033B

Abstract

本公开是关于一种视频封面确定方法及装置、存储介质。该方法包括：获取待处理视频中M个待处理图像帧；依次选取M个所述待处理图像帧中的一个所述待处理图像帧输入到剪裁评分网络，得到N个图像区域、N个所述图像区域对应的N个区域评估值以及被选取的所述待处理图像帧的整体评估值；其中，M和N为正整数；基于M个所述待处理图像帧的整体评估值，选择出目标帧；根据所述目标帧的N个区域评估值，确定出目标区域；将所述确定出的目标区域输出为所述待处理视频的封面图。本公开实施例能够提高剪裁评分网络的输出效率，节省了视频封面确定的消耗时间。

Description

视频封面确定方法及装置、存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种视频封面确定方法及装置、存储介质。

背景技术

现有的视频资料，通常会选取一个图像作为视频的静态封面，以方便用户了解视频的内容。可以通过人为设置视频资料的封面，例如视频网站中的某部电影，采用一幅海报图或者电影内容中的某个画面作为电影的封面。此外，还可以通过一些技术手段将视频中的人物脸部图案作为视频资料的封面，例如在视频的首帧图像中通过人脸检测选取正脸和表情好的图像。然而，现有的图像选取方法选取精度较差，且选取时间较长。

发明内容

本公开提供一种视频封面确定方法及装置、存储介质。

根据本公开实施例的第一方面，提供一种视频封面确定方法，包括：

获取待处理视频中M个待处理图像帧；

依次选取M个所述待处理图像帧中的一个所述待处理图像帧输入到剪裁评分网络，得到N个图像区域、N个所述图像区域对应的N个区域评估值以及被选取的所述待处理图像帧的整体评估值；其中，M和N为正整数；

基于M个所述待处理图像帧的整体评估值，选择出目标帧；

根据所述目标帧的N个区域评估值，确定出目标区域；

将所述确定出的目标区域输出为所述待处理视频的封面图。

在一些实施例中，所述基于M个所述待处理图像帧的整体评估值，选择出目标帧，包括：

从M个所述待处理图像帧中，选择整体评估值最高的待处理图像帧，作为所述目标帧。

在一些实施例中，所述根据所述目标帧的N个区域评估值，确定出目标区域，包括：

从所述目标帧的N个图像区域中，选择区域评估值最高的图像区域，作为所述目标区域。

在一些实施例中，所述方法还包括：

对一个图像帧样本进行剪裁，得到N个图像区域样本；

将N个所述图像区域样本和一个所述图像帧样本，输入到第一网络，得到N+1个第一样本结果标签；所述N+1个所述第一样本结果标签包括：N个第一区域样本评估值和一个所述图像帧样本的第一整体样本评估值；

以所述第一样本结果标签为目标，训练所述第二网络，得到所述剪裁评分网络；

其中，所述第一网络的结构复杂度，大于所述第二网络的结构复杂度。

在一些实施例中，所述以所述第一样本结果标签为目标，训练第二网络，得到所述剪裁评分网络，包括：

将一个所述图像帧输入所述第二网络，得到N+1个第二样本结果标签，所述N+1个第二样本结果标签包括：N个第二区域样本评估值和一个所述图像帧样本的第二整体样本评估值；

基于所述第一样本结果标签和所述第二样本结果标签，确定损失函数；

基于所述损失函数调整第二网络，得到所述剪裁评分网络。

在一些实施例中，所述方法还包括：

获取训练样本；其中，一个所述训练样本中包含有第一训练图像样本和第二训练图像样本；

将所述第一训练图像样本，输入第一子网络，得到针对所述第一子网络的预测值；

将所述第二训练图像样本，输入第二子网络，得到针对所述第二子网络的预测值；其中，所述第一子网络和所述第二子网络，为双生神经网络中的两个相同网络，所述第二训练图像样本的标签值高于所述第一训练图像样本的标签值；

将所述第一子网络的预测值、所述第二子网络的预设值、所述第一训练图像样本的标签值与所述第二训练图像样本的标签值之间的样本差值，得到第二损失值；

若所述损失值在预设阈值范围内，将所述损失值在预设范围内时对应的所述第一子网络或所述第二子网络，作为所述第一网络；

若所述第二损失值不在所述预设阈值内，继续训练所述第一子网络和第二子网络。

在一些实施例中，所述训练样本包括：整体图像样本和区域图像样本；

一个所述整体图像样本由两个整体训练图像构成，且两个所述整体训练图像的整体标签值不同，且所述整体标签值按照预设规则排列；

一个所述区域图像样本由两个区域训练图像构成，且两个所述区域训练图像的区域标签值不同，且所述区域标签值按照所述预设规则排列。

根据本公开实施例的第二方面，提供一种视频封面确定装置，所述装置包括：

图像帧获取模块，配置为获取待处理视频中M个待处理图像帧；

剪裁评分模块，配置为依次选取M个所述待处理图像帧中的一个所述待处理图像帧输入到剪裁评分网络，得到N个图像区域、N个所述图像区域对应的N个区域评估值以及被选取的所述待处理图像帧的整体评估值；其中，M和N为正整数；

第一选择模块，配置为基于M个所述待处理图像帧的整体评估值，选择出目标帧；

第二选择模块，配置为根据所述目标帧的N个区域评估值，确定出目标区域；

输出模块，配置为将所述确定出的目标区域输出为所述待处理视频的封面图。

在一些实施例中，所述第一选择模块1003，还配置为从M个所述待处理图像帧中，选择整体评估值最高的待处理图像帧，作为所述目标帧。

在一些实施例中，所述第二选择模块1004，还配置为从所述目标帧的N个图像区域中选择区域评估值最高的图像区域，作为所述目标区域。

在一些实施例中，所述装置还包括：

剪裁模块，配置为对一个图像帧样本进行剪裁，得到N个图像区域样本；

输入模块，配置为将N个所述图像区域样本和一个所述图像帧样本，输入到第一网络，得到N+1个第一样本结果标签；所述N+1个所述第一样本结果标签包括：N个第一区域样本评估值和一个所述图像帧样本的第一整体样本评估值；

训练模块，配置为以所述第一样本结果标签为目标，训练所述第二网络，得到所述剪裁评分网络；其中，所述第一网络的结构复杂度，大于所述第二网络的结构复杂度。

在一些实施例中，所述训练模块，还配置为将一个所述图像帧输入所述第二网络，得到N+1个第二样本结果标签，所述N+1个第二样本结果标签包括：N个第二区域样本评估值和一个所述图像帧样本的第二整体样本评估值；基于所述第一样本结果标签和所述第二样本结果标签，确定损失函数；基于所述损失函数调整第二网络，得到所述剪裁评分网络。

在一些实施例中，所述装置还包括：

网络获取模块，配置为获取训练样本；其中，一个所述训练样本中包含有第一训练图像样本和第二训练图像样本；将所述第一训练图像样本，输入第一子网络，得到针对所述第一子网络的预测值；将所述第二训练图像样本，输入第二子网络，得到针对所述第二子网络的预测值；其中，所述第一子网络和所述第二子网络，为双生神经网络中的两个相同网络，所述第二训练图像样本的标签值高于所述第一训练图像样本的标签值；将所述第一子网络的预测值、所述第二子网络的预设值、所述第一训练图像样本的标签值与所述第二训练图像样本的标签值之间的样本差值，得到损失值；若所述损失值在预设阈值范围内，将所述损失值在预设范围内时对应的所述第一子网络或所述第二子网络，作为所述第一网络；若所述损失值不在所述预设阈值内，继续训练所述第一子网络和所述第二子网络。

根据本公开实施例的第三方面，提供一种视频封面确定装置，所述装置至少包括：处理器和用于存储能够在所述处理器上运行的可执行指令的存储器，其中：处理器用于运行所述可执行指令时，所述可执行指令执行上述第一方面提供的视频封面确定方法中的步骤。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述第一方面提供的视频封面确定方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中一个待处理图像帧输入剪裁评分网络得到N个图像区域对应的N个区域评估值以及一个待处理图像帧的整体评估值，并基于M个待处理图像帧的整体评估值选择出目标帧，根据目标帧的N个区域评估值选择目标区域。也就是说，本公开实施例的剪裁评分网络输入一个待处理图像帧，便可输出剪裁后的N个区域评估值和一个整体评估值，即运行一次剪裁评分网络便可从N+1个评估值中得到目标区域。如此，能够提高剪裁评分网络的输出效率，节省了视频封面确定的消耗时间。

并且，本公开实施例先从M个待处理图像帧中选择出目标帧，再从目标帧的N个图像区域中选择目标区域。如此，一方面能够更快的选择出目标区域，提高了选择效率；另一方面相对于对没有人脸的图像使用中心剪裁的方式，本公开实施例通过对比剪裁得到N个图像区域的N个区域评估值，选择出的目标区域能够更好的展示该图像帧，提高了剪裁选取的精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本公开实施例示出的一种视频封面确定方法流程图一。

图2是本公开实施例示出的一种终端设备中相册视频示意图。

图3是本公开实施例示出的一种视频封面确定方法流程图二。

图4是本公开实施例示出的一种获取训练样本的示意图。

图5是本公开实施例示出的一种蒸馏学习的示意图。

图6是本公开实施例示出的一种目标区域选择示意图。

图7是本公开实施例示出的一种视频封面确定装置图一。

图8是本公开实施例示出的一种视频封面确定装置图二。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是本公开实施例示出的一种视频封面确定方法流程图一，该方法可以适用于为视频资料选取封面的场景，该视频资料可为终端设备内相册中的视频，还可以是使用交互类应用拍摄的实时视频，如使用微信应用拍摄的实时视频或者使用微博应用拍摄的实时视频。如图1所示，视频封面确定方法包括以下步骤：

S101、获取待处理视频中M个待处理图像帧；

S102、依次选取M个所述待处理图像帧中的一个所述待处理图像帧输入到剪裁评分网络，得到N个图像区域、N个所述图像区域对应的N个区域评估值以及被选取的所述待处理图像帧的整体评估值；其中，M和N为正整数；

S103、基于M个所述待处理图像帧的整体评估值，选择出目标帧；

S104、根据所述目标帧的N个区域评估值，确定出目标区域；

S105、将所述确定出的目标区域输出为所述待处理视频的封面图。

上述视频封面确定方法可应用于终端设备，终端设备通过执行视频封面确定方法为待处理视频选择封面图。其中，该终端设备包括可穿戴式电子设备或者移动终端。其中，移动终端包括手机、笔记本或者平板电脑，该可穿戴电子设备包括智能手表或者智能手环，本公开实施例不作限制。

上述视频封面确定方法还可应用于服务器，该服务器与终端设备建立有通信，服务器可将选择的目标区域对应的图像发送给终端设备，使得终端设备能够利用该目标区域对应的图像作为该待处理视频的封面图。

本公开实施例中，获取待处理视频中M个待评分图像，即步骤S101，包括：按照预设间隔时间提取待处理视频，获取M个待处理图像帧。其中，间隔时间可根据实际需求设置，该间隔时间可设置为1秒或者2秒，本公开实施例不作限制。

在获取待处理图像帧的过程中，待处理图像帧的个数M可根据视频时长和间隔时间之间的商值确定。例如，该视频时长为60秒，间隔时间为1秒，对应的提取得到的待处理图像帧的个数M为60个。

在步骤S102之前，终端设备或服务器事先存储有剪裁评分网络，该剪裁评分网络的输入为：一个待处理图像帧，该剪裁评分网络的输出为：N个图像区域、N个图像区域对应的N个区域评估值、一个待处理图像帧的整体评估值。

本公开实施例通过上述剪裁评分网络既可以得到待处理图像帧的整体评估值，还可以剪裁得到待处理图像帧的区域评估值。即剪裁评分网络输入一个图像帧对应输出N+1个评估值。如此，相对于现有神经网络输入一个图像帧对应输出一个评估值，能够提高多个评估值输出效率，节省图像评分时间。同时，相对于现有的使用正负例作为的训练语料来训练得分模型，该得分模型不能对待处理图像帧进行剪裁，本公开实施例的剪裁评分网络不仅可实现剪裁还能够基于剪裁得到的图像区域得到区域评估值，丰富了剪裁评分网络的功能。

在步骤S102中，一个待处理图像帧可剪裁得到N个图像区域。在一些实施例中，N个图像区域中的任意两个图像区域的至少部分不同。在另一些实施例中，N个图像区域重叠后，能够完整覆盖一个待处理图像帧。在另一些实施例中，可以按照预设方式，通过平移取景框的方式，分别从一个待处理图像帧中取出N个不同的图像区域。

示例性地，待处理图像帧可为16：9，对应剪裁得到的图像区域可为1：1。

在步骤S102中，剪裁得到的图像区域的个数N可根据实际需求设置。例如，该N可设置为50或者60，本公开实施例不作限制。

并且，M个待处理图像帧对应有M个整体评估值。一个待处理图像帧有N个区域评估值，对应的M个待处理图像帧对应有M*N个区域评估值。

在步骤S103中，该目标帧为M个待处理图像帧中的任意一个待处理图像帧。该目标帧可表征M个待处理图像帧中最精彩的图像帧。

在一些实施例中，一个待处理图像帧的整体评估值和N个图像区域的区域评估值，都可以是信息熵。

例如，一个待处理图像帧的整体评估值可为一个图像的整体信息熵。一个区域评估值可为对应图像区域的信息熵。

需要说明的是，信息熵越大，则说明图像内容越丰富。如此，一个空白帧或者全黑帧的整体评估值和区域评估值都低，是不可能被认为是目标帧和目标区域的。

在另一些实施例中，一个待处理图像帧的整体评估值和N个图像区域的区域评估值，可为综合信息熵和图像内容是否为特定内容这两者得到的综合评分。

例如，以球赛视频为例，球赛视频中进球图像或者遗憾未进球的图像为特定内容，信息熵作为评估值的一项，而是否为特定内容可以作为评估值的另一个项，通过加权平均的方式，得到一个待评估图像的整体评估值和/或区域评估值。

当然以上是对整体评估值和区域评估值的举例，具体实现时不局限于此，总之，整体评估值和区域评估值，体现图像是否精彩或是否为用户想要看到图像的任意数值信息。

本公开实施例中，在选择出目标帧后，根据目标帧的N个区域评估值，确定出目标区域。该目标区域对应的图像可为目标帧中最精彩图像区域。

从步骤S103和步骤S104中，本公开实施例先选择出最精彩图像帧，再从最精彩图像帧中的N个区域评估值中选择出最精彩图像帧中最精彩区域图像。即本公开实施例先进行不同待处理图像帧之间的对比，再进行同一待处理图像帧内的不同图像区域之间的对比，能够实现更快的选择出目标区域。其中，最精彩图像帧可为展示待处理视频的最优图像，最精彩区域图像可为展示该待评分图像的最优区域。示例性地，该最优区域可为打篮球中的投篮动作展示区域、踢足球中踢球动作展示区域或者跳水运动中运动员入水展示区域，本公开实施例不作限制。

在步骤S105中，确定出的目标区域，能够输出为该待处理视频的封面图，使得封面图可为待处理视频中最精彩帧的最精彩图像，进而能够更优的展示待处理视频，方便用户能够通过封面图更加快速的了解到待处理视频的内容。

上述该确定出的目标区域，还能够输出为待处理视频的海报，或者，宣传信息的插图。示例性地，如图2所示，视频封面确定方法应用在终端设备中，该终端设备的相册中存储有5个视频，利用该视频封面确定方法可计算得到每一个视频的封面图，进而可以直接展示在终端设备的相册的视频页面中。

并且，本公开实施例先从M个待处理图像帧中选择出目标帧，再从目标帧的N个图像区域中选择目标区域。如此，一方面能够更快的选择出目标区域，提高了选择效率；另一方面相对于使用中心剪裁的方式剪裁没有人脸的图像，本公开实施例选择出的目标区域，是通过N个图像区域的N个区域评估值得到的，其并不受限于具有人脸的人脸图像，进而选择出的目标区域能够更好的展示该图像帧，提高了剪裁选取的精度。

本公开实施例中，M个待处理图像帧的整体评估值，表征待处理图像帧的整体精彩程度。且待处理图像帧的整体评估值越高，待处理图像帧越精彩。其中，越精彩的图像帧越能够更优的展示待处理视频。

需要说明的是，通过比较整体评估值，选择出的目标帧能够更优的展示待处理视频，提高了目标帧的选择精度。

从所述目标帧的N个图像区域中选择区域评估值最高的图像区域，作为所述目标区域。

本公开实施例中，目标帧的N个区域评估值，表征待处理图像帧的图像区域的精彩程度。且目标帧的区域评估值越高，目标帧的图像区域越精彩。其中，越精彩的图像区域能够更优的展示目标帧中的内容。

需要说明的是，选择出的目标区域为目标帧中最精彩的图像区域。因此，通过选择区域评估值最高的图像区域，能够更优的展示目标帧中的内容，提高了剪裁选取的精度。

在一些实施例中，所述方法还包括：

对一个图像帧样本进行剪裁，得到N个图像区域样本；

本公开实施例中，在利用剪裁评分网络输出N个区域评估值和一个整体评估值之前，事先存储有剪裁评分网络，进而能够实现直接利用剪裁评分网络，从M个待处理图像帧中选择出目标帧的目标区域，能够简化处理步骤，提高目标区域的选取效率。同时，本公开实施例得到的剪裁评分网络是基于结构简化的第二网络训练得到的，能够减小运行所占用终端设备的内存以及运行所需的时间，能够适用于终端设备直接运行得到目标区域，实现了端到端的处理方案。经验证，在终端设备上部署视频封面确定方法仅需要5毫秒便可以计算得到目标区域。

需要说明的是，第一网路的输入为：N+1个样本，第一网路的输出为：N+1个第一样本结果标签。也就是说，第一网络的一个样本对应一个结果标签，进而在得到N+1个第一样本结果标签时，需要第一网络运行N+1次。

本公开实施例中，以第一样本结果标签作为目标，训练第二网络，得到剪裁评分网络。也就是说，第一网络和第二网络为蒸馏学习模型的组成部分。本公开实施例可以把第一网络作为教师(teacher)网络，第二网络作为学生(student)网络，通过蒸馏学习，使得训练得到的剪裁评分网络的结构更加简单且输出结果更加精确。

在一些实施例中，所述以所述第一样本结果标签为目标，训练所述第二网络，得到所述剪裁评分网络，包括：

基于所述损失函数调整第二网络，得到所述剪裁评分网络。

本公开实施例中，第一样本结果标签为图像帧的真实评分结果，第二样本结果标签为图像帧的预测评分结果。该损失函数是用于评估第二网络的预测评分结果与真实评分结果之间不一致程度。基于损失函数调整第二网络，目的在于使得预测评分结果接近真实评分结果。

需要说明的是，损失函数的公式可为(1)。其中，样本为i，预测评分结果f(x)，真实评分结果y。

本公开实施例中，基于损失函数调整第二网络，包括：当L(y_i,f(x_i))为1时调整第二网络，使得第二网络输出的第二样本结果标签接近真实评分结果；当调整到L(y_i,f(x_i))为0时将调整后的第二网络确定为剪裁评分网络。

本公开实施例中，通过损失函数调整第二网络，使得损失函数指导第二网络学习，进而能够使得剪裁评分网络的输出评估值更加接近真实评分结果，在简化剪裁评分网络的基础上提高了剪裁评分网络输出评估值的准确性。

在一些实施例中，所述方法还包括：

基于所述第一子网络的预测值、所述第二子网络的预设值、所述第一训练图像样本的标签值与所述第二训练图像样本的标签值之间的样本差值，得到损失值；

若所述损失值不在所述预设阈值范围内，继续训练所述第一子网络和第二子网络。

本公开实施例中，事先训练了第一网络，该第一网络可基于训练样本和双生神经网络(Siamese neural network)训练得到的。该双生神经网络为由两个网络结构相同且权重共享的神经网络拼接而成的。上述第一子网络和第二子网络为结构相同的神经网络，且第一子网络和第二子网络构成该双生神经网络。

需要说明的是，第一子网络和第二子网络，可均为卷积神经网络，还可均为循环神经网络，本公开实施例不作限制。

本公开实施例中，训练样本包含一对训练图像样本。其中，该一对训练图像样本中第二训练图像样本的标签值大于第一训练图像样本的标签值，表明第二训练图像样本的精彩程度大于第一训练图像样本的精彩程度。即训练样本为具有关联的一对训练图像样本构成的。

需要说明的是，相对于现有的分类网络将所有图像分为精彩和不精彩的两类，本公开实施例的训练样本所包含的一对训练图像样本，能够体现不同训练图像样本之间的精彩程度差异，进而通过训练样本训练得到的第一网络能够学习到两个不同训练图像之间的精彩差异关系，使得第一网络能够得到更加能够反映图像精彩程度的评估值，进而使得以第一网络为目标训练得到的剪裁评分网络输出的评估值更加精确。

上述双生神经网络的输入为：第一训练图像样本和第二训练图像样本；双生神经网络的输出为：损失值。

本公开实施例中，基于所述第一子网络的预测值、所述第二子网络的预设值、所述第一训练图像样本的标签值与所述第二训练图像样本的标签值之间的样本差值，得到损失值，包括：获取第一子网络的预测值和第二子网络的预测值之间的预测差值；获取第一训练图像样本的标签值与第二训练图像样本的标签值之间的样本差值；基于预测差值和样本差值之差，确定损失值。

需要说明的是，上述双生神经网络的训练目标在于预测差值接近于样本差值，即预测差值对应的第二子网络的预测值高于第一子网络的预测值。

当预测差值和样本差值之差确定的损失值不在预设阈值范围内，表明现有的第一子网络和第二子网络还未达到训练目标，需要继续训练；当预测差值和样本差值之差确定的损失值在预设阈值范围内，表明训练的第一子网络和第二子网络已经达到训练目标，可直接将训练得到的第一子网络或第二子网络，作为第一网络。

其中，上述预设阈值范围可根据实际需要进行设置。例如，预设阈值范围可在-1至1之间，本公开实施例不作限制。

本公开实施例中，通过双生神经网络训练得到第一网络，能够实现第一网络输出的精彩样本的标签值高于不精彩样本的标签值，即通过第一网络输出的评估值能够表征图像样本的精彩程度。

本公开实施例中，训练样本分为整体图像样本和区域图像样本，且一个训练样本中整体标签值或者区域标签值均是按照预设规则排列。也就是说，本公开实施例通过训练样本训练得到的第一网络既可对整体图像进行评分，还可对区域图像进行评分，扩展了第一网络评分对象以及适用场景。

上述预设规则排列包括：两个整体训练图像中整体标签值高的排列在前面，两个区域训练图像中区域标签值高的排列在前面。

示例性地，两个整体训练图像中一个整体训练图像3的整体标签值为3，另一个整体训练图像2的整体标签值为2。对应的，区域图像样本可写成二元组的形式，即为二元组(3，2)；其中，二元组(3，2)表征整体训练图像3的整体标签值大于整体训练图像2的整体标签值。

为了更好的理解本公开实施例的方法，如图3所示，本公开实施例示例如下步骤：

S201、获取训练样本。第一、采集整体图像样本。具体为：1)采集样本视频，把样本视频以每秒取一帧的方式转化得到多个图像帧样本；并标注多个图像帧样本中最精彩的三个图像帧样本的整体标签值依次为3分、2分和1分，多个图像帧样本中除最精彩的三个图像帧样本以外的整体标签值为0分；2)遍历该样本视频中的多个图像帧样本，按照整体标签值高低获取两个整体训练图像，将两个整体训练图像构成一个整体图像样本。其中，一个整体图像样本可用二元组的形式构成。

第二、采集区域图像样本。具体为：1)在标注得到最精彩的三个图像帧样本之后，将最精彩的三个图像帧样本的每一个图像帧样本进行剪裁，剪裁得到50个不同的区域图像样本；2)标注每一个图像帧样本中最精彩的三个区域图像样本的区域标签值依次为3分、2分和1分，并将50个区域图像样本中除最精彩的三个区域图像样本以外的区域标签值为0分；3)遍历一个图像帧样本中的50个区域图像样本，按照区域标签值高低获取两个区域训练图像，将两个区域训练图像构成一个区域图像样本。其中，一个区域图像样本也可用二元组的形式构成。

需要说明的是，本公开实施例的训练样本对应的是直接标注的标签值，而不是根据图像特性信息(如清晰度、亮度信息或者颜色信息)选择的正负例，因此，在针对图像精彩和美感的评价与图像特性信息不耦合的场景，本公开实施例基于训练样本训练得到的第一网络以及基于第一网络训练得到的剪裁评分网络，能够适用该不耦合场景，扩大了剪裁评分网络的适应场景。例如，本公开实施例得到的剪裁评分网络适用于对画面清晰但不具有美感的图像场景进行剪裁或者评分。

示例性地，如图4所示，6个图像帧样本中，第二图像帧样本对应的标签值为2，第三图像帧样本对应的标签值为3，第五图像帧样本对应的标签值为1，第一、四和六图像帧样本对应的标签值为0。对应的，训练样本可由二元组构成，例如，二元组(3，1)表征第三图像帧样本的标签值大于第一图像帧样本的标签值。

S202、基于训练样本，训练得到第一网络。其中，通过双生神经网络学习训练样本中不同图像帧样本的标签值。损失函数可设置为高的标签值对应图像帧的预测值，比低的标签值对应图像帧的预测值大于1。具体地，本公开实施例中，可先将训练样本输入双生神经网络得到针对第一子网络的预测值和针对第二子网络的预测值；并基于针对第一子网络的预测值、针对第二子网络的预测值和第一训练图样本的标签值与第二训练样本图像的标签值之间的样本差值，确定损失值，并当损失值在预设阈值范围内时，将第一子网络或者第二子网络作为第一网络。

S203、使用蒸馏学习，以第一网络输出的第一样本结果标签为目标训练第二网络，得到剪裁评分网络。其中，第二网络为学生网络，第一网络为教师网络。该第一网络输出的第一样本结果标签可指导第二网络训练，其训练目的在于第二网络输出的第二样本结果标签接近第一样本结果标签。

示例性地，如图5所示，第一网络输入：50个区域图像样本和一个整体图像样本；对应的第一网络输出：51个第一样本结果标签。第二网络输入：一个图像帧；对应的第二网络输出：51个第二样本结果标签。

S204、依次选取M个待处理图像帧中一个待处理图像帧输入到剪裁评分网络，得到50个图像区域、50个所述图像区域对应的50个区域评估值以及一个待处理图像帧的一个整体评估值。

本公开实施例中，通过剪裁评分网络可得到51维信息。其中，第0至49维信息可为50个区域图像的区域评估值，第50维信息可为该待处理图像帧的整体评估值。

S205、从M个待处理图像帧中选择整体评估值最高的待处理图像帧，作为目标帧；从目标帧的50个图像区域中选择区域评估值最高的图像区域，作为目标区域。具体地，获取M个待处理图像帧中每一个待处理图像帧的第50维信息，比较第50维信息对应的M个待处理图像帧的M个整体评估值，选取整体评估值最高的待处理图像帧为目标帧，再从目标帧中的第0至49维信息中选取区域评估值最高的图像区域为目标区域。

S206、将目标区域输出为待处理视频的封面图。

示例性地，如图6所示，从6个待处理图像帧中选择整体评估值最高的第二待处理图像帧10为目标帧，并在目标帧中选择区域评估值最高的图像区域20为目标区域。

图7是根据一示例性实施例示出的一种视频封面确定装置图一。如图7所示，该视频封面确定装置包括图像帧获取模块1001，剪裁评分模块1002、第一选择模块1003、第二选择模块1004和输出模块1005，其中，

图像帧获取模块1001，配置为获取待处理视频中M个待处理图像帧；

剪裁评分模块1002，配置为依次选取M个所述待处理图像帧中的一个所述待处理图像帧输入到剪裁评分网络，得到N个图像区域、N个所述图像区域对应的N个区域评估值以及被选取的所述待处理图像帧的整体评估值；其中，M和N为正整数；

第一选择模块1003，配置为基于M个所述待处理图像帧的整体评估值，选择出目标帧；

第二选择模块1004，配置为根据所述目标帧的N个区域评估值，确定出目标区域；

输出模块1005，配置为将所述确定出的目标区域输出为所述待处理视频的封面图。

在一些实施例中，所述第一选择模块1003，还配置为从M个所述待处理图像帧中选择整体评估值最高的待处理图像帧，作为所述目标帧。

在一些实施例中，所述装置还包括：

剪裁模块1006，配置为对一个图像帧样本进行剪裁，得到N个图像区域样本；

输入模块1007，配置为将N个所述图像区域样本和一个所述图像帧样本，输入到第一网络，得到N+1个第一样本结果标签；所述N+1个所述第一样本结果标签包括：N个第一区域样本评估值和一个所述图像帧样本的第一整体样本评估值；

训练模块1008，配置为以所述第一样本结果标签为目标，训练所述第二网络，得到所述剪裁评分网络；其中，所述第一网络的结构复杂度，大于所述第二网络的结构复杂度。

在一些实施例中，所述训练模块1008，还配置为将一个所述图像帧输入所述第二网络，得到N+1个第二样本结果标签，所述N+1个第二样本结果标签包括：N个第二区域样本评估值和一个所述图像帧样本的第二整体样本评估值；基于所述第一样本结果标签和所述第二样本结果标签，确定损失函数；基于所述损失函数调整第二网络，得到所述剪裁评分网络。

在一些实施例中，所述装置还包括：

网络获取模块1009，配置为获取训练样本；其中，一个所述训练样本中包含有第一训练图像样本和第二训练图像样本；将所述第一训练图像样本，输入第一子网络，得到针对所述第一子网络的预测值；将所述第二训练图像样本，输入第二子网络，得到针对所述第二子网络的预测值；其中，所述第一子网络和所述第二子网络，为双生神经网络中的两个相同网络，所述第二训练图像样本的标签值高于所述第一训练图像样本的标签值；将所述第一子网络的预测值、所述第二子网络的预设值、所述第一训练图像样本的标签值与所述第二训练图像样本的标签值之间的样本差值，得到损失值；若所述损失值在预设阈值范围内，将所述损失值在预设范围内时对应的所述第一子网络或所述第二子网络，作为所述第一网络；若所述损失值不在所述预设阈值内，继续训练所述第一子网络和所述第二子网络。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种视频封面确定装置图二。例如，装置可以是移动电话，移动电脑等。

参照图8，装置可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备的操作。这些数据的示例包括用于在装置上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置提供各个方面的状态评估。例如，传感器组件814可以检测到设备的打开/关闭状态，组件的相对定位，例如所述组件为装置的显示器和小键盘，传感器组件814还可以检测装置或装置一个组件的位置改变，用户与装置接触的存在或不存在，装置方位或加速/减速和装置的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置和其他设备之间有线或无线方式的通信。装置可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行视频封面确定方法，所述方法包括：

获取待处理视频中M个待处理图像帧；

基于M个所述待处理图像帧的整体评估值，选择出目标帧；

根据所述目标帧的N个区域评估值，确定出目标区域；

将所述确定出的目标区域输出为所述待处理视频的封面图。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种视频封面确定方法，其特征在于，所述方法包括：

获取待处理视频中M个待处理图像帧；

基于M个所述待处理图像帧的整体评估值，选择出目标帧；

根据所述目标帧的N个区域评估值，确定出目标区域；

将所述确定出的目标区域输出为所述待处理视频的封面图。

2.根据权利要求1所述的方法，其特征在于，所述基于M个所述待处理图像帧的整体评估值，选择出目标帧，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标帧的N个区域评估值，确定出目标区域，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

对一个图像帧样本进行剪裁，得到N个图像区域样本；

以所述第一样本结果标签为目标，训练第二网络，得到所述剪裁评分网络；

5.根据权利要求4所述的方法，其特征在于，所述以所述第一样本结果标签为目标，所述第二网络，得到所述剪裁评分网络，包括：

基于所述损失函数调整所述第二网络，得到所述剪裁评分网络。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

基于所述第一子网络的预测值、所述第二子网络的预测值、所述第一训练图像样本的标签值与所述第二训练图像样本的标签值之间的样本差值，得到损失值；

若所述损失值不在所述预设阈值范围内，继续训练所述第一子网络和所述第二子网络。

7.根据权利要求6所述的方法，其特征在于，所述训练样本包括：整体图像样本和区域图像样本；

8.一种视频封面确定装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述第一选择模块，还配置为从M个所述待处理图像帧中，选择整体评估值最高的待处理图像帧，作为所述目标帧。

10.根据权利要求8所述的装置，其特征在于，所述第二选择模块，还配置为从所述目标帧的N个图像区域中选择区域评估值最高的图像区域，作为所述目标区域。

11.根据权利要求8至10任一项所述的装置，其特征在于，所述装置还包括：

训练模块，配置为以所述第一样本结果标签为目标，训练第二网络，得到所述剪裁评分网络；其中，所述第一网络的结构复杂度，大于所述第二网络的结构复杂度。

12.根据权利要求11所述的装置，其特征在于，所述训练模块，还配置为将一个所述图像帧输入所述第二网络，得到N+1个第二样本结果标签，所述N+1个第二样本结果标签包括：N个第二区域样本评估值和一个所述图像帧样本的第二整体样本评估值；基于所述第一样本结果标签和所述第二样本结果标签，确定损失函数；基于所述损失函数调整第二网络，得到所述剪裁评分网络。

13.根据权利要求11所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述训练样本包括：整体图像样本和区域图像样本；

15.一种视频封面确定装置，其特征在于，所述装置至少包括：处理器和用于存储能够在所述处理器上运行的可执行指令的存储器，其中：

处理器用于运行所述可执行指令时，所述可执行指令执行上述权利要求1至7中任一项提供的视频封面确定方法中的步骤。

16.一种非临时性计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述权利要求1至7中任一项提供的视频封面确定方法。