CN111274444A

CN111274444A - 视频封面确定模型的生成方法及装置、视频封面确定方法及装置

Info

Publication number: CN111274444A
Application number: CN202010112972.5A
Authority: CN
Inventors: 刘畅; 李岩
Original assignee: Reach Best Technology Co Ltd
Current assignee: Reach Best Technology Co Ltd; Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2020-06-12

Abstract

本公开关于一种视频封面确定模型的生成方法及装置、视频封面确定方法及装置。包括：获取第一目标视频集；根据第一目标视频，获取正样本和负样本；根据正样本和负样本，对预设的初始视频封面确定模型进行训练，得到第一目标图像为封面的预测分数和用于衡量正样本与负样本参与训练权重的评价分数；将满足第二预设条件的预测分数且满足第三预设条件的评价分数，对应的初始视频封面确定模型，确定为视频封面确定模型。整个过程中，无需人工介入，更不涉及相关人员的专业程度，节省大量人力物力，并且得到的视频封面确定模型可以适用于不同的视频内容，具有较强的泛化能力。

Description

视频封面确定模型的生成方法及装置、视频封面确定方法及装置

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频封面确定模型的生成方法及装置、视频封面确定方法及装置。

背景技术

随着现代信息传输技术的快速进步和智能手机等视频拍摄设备的普及，人们通过创作视频来分享生活的热情得到了前所未有的发展，短视频逐渐成为了人们日常接受信息的主要载体之一。视频封面作为用户最先看到的信息，极大程度地决定了相关视频是否会被用户观看，因此，选择高质量的视频封面有助于提升用户体验，帮助视频分享和推广。传统技术中，通常是通过深度学习的方法，对提取到的视频帧的特征进行美学程度和相关性检测，从而选取视频封面。

然而，传统技术中，采用深度的方法需要人工对视频帧的特征进行设计和标注，消耗的人力物力都比较大，并且高度依赖对视频帧的特征进行设计和标注的人员的专业程度。

发明内容

本公开提供一种视频封面确定模型的生成方法及装置、视频封面确定方法及装置，以至少解决相关技术中高度依赖人工进行视频封面确定的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频封面确定模型的生成方法，包括：

获取第一目标视频集；其中，所述第一目标视频集包括至少一个第一目标视频；

根据所述第一目标视频，获取正样本和负样本；其中，所述正样本为所述第一目标视频对应的初始视频封面，所述负样本为图像特征满足第一预设条件的图像帧；

根据所述正样本和所述负样本，对预设的初始视频封面确定模型进行训练，并得到所述第一目标图像为封面的预测分数和用于衡量所述正样本与所述负样本参与训练权重的评价分数；

将满足第二预设条件的预测分数且满足第三预设条件的评价分数，对应的初始视频封面确定模型，确定为视频封面确定模型。

在一示例性实施例中，所述根据所述第一目标视频，获取正样本和负样本，包括：

对于每一所述第一目标视频，获取所述第一目标视频的初始视频封面，并将所述初始视频封面确定为正样本；

按照第一预设规则，从所述第一目标视频中抽取至少一个图像帧，得到第一目标图像集；

根据所述第一目标图像的图像特征，对所述第一目标图像的属性进行检测，得到图像属性检测结果；

根据每一所述图像属性检测结果、每一所述第一目标图像的图像特征与所述正样本的图像特征之间的距离，得到所述负样本。

在一示例性实施例中，所述根据每一所述图像属性检测结果、每一所述第一目标图像的图像特征与所述正样本的图像特征之间的距离，得到所述负样本，包括：

将所述图像属性检测结果为非正常图像的第一目标图像，确定为第一负样本；

将所述第一目标图像的图像特征与所述正样本的图像特征之间的距离最大的第一目标图像，确定为第二负样本；

将所述第一负样本和所述第二负样本确定为所述负样本。

在一示例性实施例中，所述初始视频封面确定模型包括初始得分网络模型和初始评价网络模型；

所述根据所述正样本和所述负样本，对预设的初始视频封面确定模型进行训练，并得到所述第一目标图像为封面的预测分数和用于衡量所述正样本与所述负样本参与训练权重的评价分数，包括：

将每一所述第一目标图像的图像特征输入所述初始得分网络模型，得到所述第一目标图像为封面的预测分数；

将所述正样本的图像特征和所述负样本的图像特征输入所述初始评价网络模型，得到用于衡量所述正样本与所述负样本参与训练权重的评价分数。

在一示例性实施例中，所述将所述正样本的图像特征和所述负样本的图像特征输入所述初始评价网络模型，得到用于衡量所述正样本与所述负样本参与训练权重的评价分数，包括：

将所述正样本和所述负样本进行任意组合，得到正负样本对；

将所述正负样本对中的正样本的图像特征和负样本的图像特征输入所述初始评价网络，得到评价分数。

在一示例性实施例中，所述将满足第二预设条件的预测分数且满足第三预设条件的评价分数，对应的初始视频封面确定模型，确定为视频封面确定模型，包括：

根据所述预测分数、所述正样本和所述负样本，得到第一损失函数值，以及根据所述评价分数、所述正样本和所述负样本，得到第二损失函数值；

根据所述第一损失函数值对所述初始得分网络模型参数进行迭代更新，直到所述第一损失函数值稳定在第一预设阈值邻域内，则将与所述第一损失函数值对应的初始得分网络模型确定为得分网络模型；

根据所述第二损失函数值对所述初始评价网络模型参数进行迭代更新，直到所述第二损失函数值稳定在第二预设阈值邻域内，则将与所述第二损失函数值对应的初始评价网络模型确定为评价网络模型；

将所述得分网络模型和所述评价网络模型对应的初始视频封面确定模型，确定为所述视频封面确定模型。

根据本公开实施例的第二方面，提供一种视频封面确定方法，包括：

获取第二目标视频；

按照第二预设规则，从所述第二目标视频中抽取图像帧，得到第二目标图像集；

将每一所述第二目标图像的图像特征输入所述视频封面确定模型，得到与所述第二目标视频对应的视频封面；其中，所述视频封面确定模型为上述第一方面所述的视频封面确定模型。

根据本公开实施例的第三方面，提供一种视频封面确定模型的生成装置，包括：

第一视频集获取单元，被配置为执行获取第一目标视频集；其中，所述第一目标视频集包括至少一个第一目标视频；

样本确定单元，被配置为执行根据所述第一目标视频，获取正样本和负样本；其中，所述正样本为所述第一目标视频对应的初始视频封面，所述负样本为图像特征满足第一预设条件的图像帧；

模型训练单元，被配置为执行根据所述正样本和所述负样本，对预设的初始视频封面确定模型进行训练，并得到所述第一目标图像为封面的预测分数和用于衡量所述正样本与所述负样本参与训练权重的评价分数；

模型生成单元，被配置为执行将满足第二预设条件的预测分数且满足第三预设条件的评价分数，对应的初始视频封面确定模型，确定为视频封面确定模型。

在一示例性实施例中，所述样本确定单元还用于执行：

将所述第一负样本和所述第二负样本确定为所述负样本。

在一示例性实施例中，所述模型训练单元还用于执行：

在一示例性实施例中，所述模型生成单元还用于执行：

根据本公开实施例的第四方面，提供一种视频封面确定装置，包括：

第二目标视频获取单元，被配置为执行获取第二目标视频；

第二目标图像集确定单元，被配置为执行按照第二预设规则，从所述第二目标视频中抽取图像帧，得到第二目标图像集；

视频封面确定单元，被配置为执行将每一所述第二目标图像的图像特征输入所述视频封面确定模型，得到与所述第二目标视频对应的视频封面；其中，所述视频封面确定模型为上述第一方面所述的视频封面确定模型。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述第一方面所述的视频封面确定模型的生成方法或第二方面所述的视频封面确定方法。

根据本公开实施例的第六方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述第一方面所述的视频封面确定模型的生成方法或第二方面所述的视频封面确定方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据正样本和负样本，对预设的初始视频封面确定模型进行训练，得到第一目标图像为封面的预测分数和用于衡量正样本与负样本参与训练权重的评价分数，并将满足第二预设条件的预测分数且满足第三预设条件的评价分数，对应的初始视频封面确定模型，确定为视频封面确定模型，整个过程无需人工介入，更不涉及相关人员的专业程度，节省大量人力物力，并且得到的视频封面确定模型可以适用于不同的视频内容，具有较强的泛化能力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频封面确定模型的生成方法的流程图。

图2是根据一示例性实施例示出的步骤S200的一种可实施方式的流程图。

图3是根据一示例性实施例示出的步骤S300的一种可实施方式的流程图。

图4是根据一示例性实施例示出的步骤S400的一种可实施方式的流程图。

图5是根据一示例性实施例示出视频封面确定模型示意图。

图6是根据一示例性实施例示出的一种视频封面确定方法的流程图。

图7是根据一示例性实施例示出的一种视频封面确定模型的生成装置的框图。

图8是根据一示例性实施例示出的一种视频封面确定装置的框图。

图9是根据一示例性实施例示出的一种视频封面确定的电子设备的框图。

图10是根据一示例性实施例示出的一种视频封面确定装置的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频封面确定模型的生成方法的流程图，如图1所示，包括以下步骤：

在步骤S100中，获取第一目标视频集；其中，第一目标视频集包括至少一个第一目标视频。

在步骤S200中，根据第一目标视频，获取正样本和负样本；其中，正样本为第一目标视频对应的初始视频封面，负样本为图像特征满足第一预设条件的图像帧。

在步骤S300中，根据正样本和负样本，对预设的初始视频封面确定模型进行训练，得到第一目标图像为封面的预测分数和用于衡量正样本与负样本参与训练权重的评价分数。

在步骤S400中，将满足第二预设条件的预测分数且满足第三预设条件的评价分数，对应的初始视频封面确定模型，确定为视频封面确定模型。

其中，第一目标视频集为训练样本集，包括用户上传的各种短视频、长视频等。第一目标视频集是多个第一目标视频的集合，为后续正样本和负样本的选取提供数据基础。正样本(初始视频封面)是指用户在上传特定类别(例如：才艺，财经，美妆，穿搭等)的视频时指定的能够最大限度反应整个视频主题内容或符合特定条件、要求的视频封面图像，该视频封面一般具有提升用户体验、帮助视频分享和推广的特性。负样本，是指与正样本相对的样本，可以理解为最小限度反应整个视频主题内容或符合特定条件、要求的图像，以及无法健康合适的反应整个视频主题内容的图像。图像特征是指该图像的RGB颜色分布直方图或灰度分布直方图等能反应图像特征的信息。

具体地，在获取到第一目标视频集后，逐一获取每一第一目标视频的初始视频封面，并将初始视频封面确定为相应第一目标视频的正样本。并从第一目标视频中抽取图像帧，将抽取到的图像帧中满足第一预设条件的图像帧确定为负样本。根据正样本的图像特征和负样本的图像特征，对预设的初始视频封面确定模型进行训练，得到第一目标图像为封面的对个预测分数和用于衡量正样本与负样本参与训练权重的多个评价分数，将预测分数与第二预设条件进行比较，将评价分数与第三预设条件进行比较，并将满足第二预设条件的预测分数且满足第三预设条件的评价分数，对应的初始视频封面确定模型，确定为视频封面确定模型。

上述视频封面确定模型的生成方法，在获取第一目标视频集并根据第一目标视频得到正样本和负样本后，根据正样本和负样本，对预设的初始视频封面确定模型进行训练，得到第一目标图像为封面的预测分数和用于衡量正样本与负样本参与训练权重的评价分数，并将满足第二预设条件的预测分数且满足第三预设条件的评价分数，对应的初始视频封面确定模型，确定为视频封面确定模型，整个过程无需人工介入，更不涉及相关人员的专业程度，节省大量人力物力，并且得到的视频封面确定模型可以适用于不同的视频内容，具有较强的泛化能力。

图2是根据一示例性实施例示出的步骤S200的一种可实施方式的流程图，如图2所示，其中，根据第一目标视频，获取正样本和负样本，包括以下步骤：

在步骤S210中，对于每一第一目标视频，获取第一目标视频的初始视频封面，并将初始视频封面确定为正样本。

在步骤S220中，按照第一预设规则，从第一目标视频中抽取至少一个图像帧，得到第一目标图像集。

在步骤S230中，根据第一目标图像的图像特征，对第一目标图像的属性进行检测，得到图像属性检测结果。

在步骤S240中，根据每一图像属性检测结果、每一第一目标图像的图像特征与正样本的图像特征之间的距离，得到负样本。

其中，第一预设规则包括：在预设数值个关键点处抽取图像帧或每隔预设时长抽取一个图像帧。图像属性表示图像中是否包含“不健康”内容的特性，图像属性表示图像中是否包含“不健康”内容的特性。图像中包括如下信息表示图像属性为“不健康”，例如，1、危害国家安全，危害社会稳定的信息；2、色情、暴力、恐怖、赌博、教唆犯罪及危害社会公德的信息；3、含有违背伦理道德的内容和信息；4、具有恶意、无聊、抄袭和灌水性质的其他非法内容等。

在预设数值个关键点处抽取图像帧可以表现为，在用户设定的时间点处进行图像帧抽取；可选地，不论时间长短，每一视频均抽取固定数量的图像帧，例如，抽取6个图像帧，具体表现为，当目标视频的时长为30秒时，每隔5秒进行一次图像帧抽取，而当目标视频的时长为60秒时，每隔10秒进行一次图像帧抽取；可选地，根据目标视频的具体特征，在视频特征变化较大的时间段内进行密集抽帧，而当视频特征变化较小的时候进行稀疏抽帧，以保证抽取到的图像能够最大限度反应目标视频所展示的内容。每隔预设时长抽取一个图像帧的方式可以表现为，当一个目标视频的时长为30秒，以5秒为固定间隔，分别在5秒、10秒、15秒、20秒、25秒、30秒处共计抽取6个图像帧；可选地，也可以以1秒为固定间隔，抽取30个图像帧，具体根据设定的精度和运算量综合确定，此处不做具体限定。

在获取到第一目标视频集中，逐一获取每一第一目标视频的初始视频封面，并将初始视频封面确定为相应第一目标视频的正样本。为了得到负样本：首先，对每一第一目标视频，按照预设的规则，从第一目标视频抽取若干个图像帧，并将该若干个图像帧确定为第一目标图像集；在得到第一目标图像集后，对第一目标图像的属性进行检测，得到图像属性检测结果。并根据每一图像属性检测结果、每一第一目标图像的图像特征与正样本的图像特征之间的距离，得到负样本。

可选地，将图像属性检测结果为非正常图像的第一目标图像，确定为第一负样本；将第一目标图像的图像特征与正样本的图像特征之间的距离最大的第一目标图像，确定为第二负样本；将第一负样本和第二负样本确定为负样本。

由于本公开是用于确定视频封面的，不仅想要选取最大限度反应目标视频内容的图像作为视频封面以提升用户体验、帮助视频分享和推广，还需要保证视频封面是健康的、合法的，因此，负样本不仅仅表现为最小限度反应整个视频主题内容的图像，还应表现为无法健康合适的反应整个视频主题内容的图像。因此，在选定负样本的过程中，不仅需要将与正样本差距较大的图像帧确定为负样本，还需将无法健康合适的反应整个视频主题内容的图像帧确定为负样本。

具体地，对第一目标图像的属性进行检测，将图像属性检测结果为不健康的图像帧确定为非正常图像，并将该非正常图像确定为第一负样本；以及，将第一目标图像的图像特征与正样本的图像特征之间的距离最大的第一目标图像确定为第二负样本；并将第一负样本和第二负样本共同确定为负样本。

上述实施例中，通过对每一第一目标视频，获取第一目标视频的初始视频封面，并将初始视频封面确定为正样本；按照第一预设规则，从第一目标视频中抽取至少一个图像帧，得到第一目标图像集；根据第一目标图像的图像特征，对第一目标图像的属性进行检测，得到图像属性检测结果；根据每一图像属性检测结果、每一第一目标图像的图像特征与正样本的图像特征之间的距离，得到负样本。上述方法，将最大限度反映视频主题内容的图像(初始视频封面)确定为正样本，将最小限度反应整个视频主题内容的图像和无法健康合适的反应整个视频主题内容的图像确定为负样本，使得负样本的选取更加全面，为后续对初始得分评价网络训练进行训练得到得分评价网络提供数据基础，进一步提供视频封面确定模型的精度。

图3是根据一示例性实施例示出的步骤S300的一种可实施方式的流程图，如图3所示，其中，根据正样本和负样本，对预设的初始视频封面确定模型进行训练，并得到第一目标图像为封面的预测分数和用于衡量正样本与负样本参与训练权重的评价分数，包括以下步骤。

在步骤S310中，将每一第一目标图像的图像特征输入初始得分网络模型，得到第一目标图像为封面的预测分数。

在步骤S320中，将正样本的图像特征和负样本的图像特征输入初始评价网络模型，得到用于衡量正样本与负样本参与训练权重的评价分数。

其中，初始视频封面确定模型包括初始得分网络模型和初始评价网络模型。初始视频封面确定模型包括初始得分网络模型和初始评价网络模型。初始得分网络模型用于计算在给定输入的卷积神经网络特征和图像特征的前提下，当前帧被选定为视频封面的预测分数；初始评价网络模型用于衡量当前正样本、负样本参与训练的权重，以减少噪声数据带来的不良影响。

具体地，将每一第一目标图像的图像特征输入初始得分网络模型得到预测分数，将正样本的图像特征和负样本的图像特征输入初始评价网络模型得到评价分数。

可选地，将正样本和负样本进行任意组合，得到正负样本对；将正负样本对中的正样本的图像特征和负样本的图像特征输入初始评价网络，得到评价分数。

具体地，假设第一目标视频集中包括n个第一目标视频，则可以得到n个分别与第一目标视频对应的正样本和n个分别与第一目标视频对应的负样本，以及m个图像属性为不正常的负样本。其中，对m无具体限定，m可以大于n也可以小于n，例如，n个第一目标视频不包含图像属性为不正常的图像，则m为0，小于n；而当n个第一目标视频中包含多个图像属性为不正常的图像，则m可能会大于n。对于输入的n个视频的正负样本对以及额外输入的m个负样本，使用网格函数，得到任意组合的正负样本对。将正样本和负样本进行任意组合，得到正负样本对；将正负样本对对应的正样本的图像特征和负样本的图像特征输入初始评价网络模型，得到评价分数。

上述实施例中，通过将每一第一目标图像的图像特征输入初始得分网络模型，得到第一目标图像为封面的预测分数，并将正样本的图像特征和负样本的图像特征输入初始评价网络模型，得到用于衡量正样本与负样本参与训练权重的评价分数，无需人工介入，更不涉及相关人员的专业程度，节省大量人力物力，并为后续视频封面确定模型提供基础。

图4是根据一示例性实施例示出的步骤S400的一种可实施方式的流程图，如图4所示，其中，将满足第二预设条件的预测分数且满足第三预设条件的评价分数，对应的初始视频封面确定模型，确定为视频封面确定模型，包括以下步骤：

在步骤S410中，根据预测分数、正样本和负样本，得到第一损失函数值，以及根据评价分数、正样本和负样本，得到第二损失函数值。

在步骤S420中，根据第一损失函数值对初始得分网络模型参数进行迭代更新，直到第一损失函数值稳定在第一预设阈值邻域内，则将与第一损失函数值对应的初始得分网络模型确定为得分网络模型。

在步骤S430中，根据第二损失函数值对初始评价网络模型参数进行迭代更新，直到第二损失函数值稳定在第二预设阈值邻域内，则将与第二损失函数值对应的初始评价网络模型确定为评价网络模型。

在步骤S440中，将得分网络模型和评价网络模型对应的初始视频封面确定模型，确定为视频封面确定模型。

具体地，如图5所示，为一示例性实施例示出视频封面确定模型示意图。初始视频封面确定模型包括初始得分网络模型和初始评价网络模型。初始得分网络模型用于计算在给定输入的卷积神经网络特征和图像特征的前提下，当前帧被选定为视频封面的预测分数；初始评价网络模型用于衡量当前正样本、负样本参与训练的权重，以减少噪声数据带来的不良影响。其中，初始得分网络模型来可以是一个三层的全连接神经网络，将提取到的第一目标图像的图像特征输入到初始得分网络模型中，经过多层变换之后输出表示当前第一目标图像被选为封面的预测分数。初始评价网络模型可以是一个三层的全连接神经网络，将正负样本对的图像特征经过拼接后输入评价网络中，经过多层变换输入评价分数，并且使用SoftMax函数在相邻的样本对内进行归一化得到最终的评价分数。SoftMax函数如公式(1)所示：

其中，w_i为评价网络输出，n为指定相邻样本对的数目。

进一步，为使初始得分评价网络能学习到正负样本的差距，同时保证训练过程的稳定性，采用Log Loss和Margin Loss损失函数，对初始视频封面确定模型进行优化。其中，Log Loss损失函数值(第一损失函数值)的计算方式如公式(2)所示：

l_t(w)＝-y_tlogσ(s_t)-(1-y_t)log(1-σ(s_t)) (2)

其中，s_t是得分网络模型对样本t的预测分数，σ()为sigmoid函数，公式为σa＝1/(1+exp-a)，得分网络模型参数为w,，yt∈{0,1}是样本的标签(正样本标签为1，负样本为0)。

根据评价网络模型预测的评价分数以及正负样本对的分值，使用带权重的MarginLoss损失函数，对评价网络模型进行优化。其中，Margin Loss损失函数值(第二损失函数值)的计算方式如公式(3)所示：

l_t(w)＝ω_tmax(0,1-s_pos+s_neg) (3)

其中，s_pos是正样本的得分，s_neg是负样本的得分，ω_t是经过SoftMax归一化之后的评价网络输出。

将第一损失函数值返回初始得分网络模型，采用随机梯度下降法来最小化第一损失函数值，对初始得分网络模型参数进行迭代更新，直到第一损失函数值稳定在第一预设阈值邻域内，则将与第一损失函数值对应的初始得分网络模型确定为得分网络模型；将第二损失函数值返回初始评价网络模型，采用随机梯度下降法来最小化第二损失函数值，对初始评价网络模型参数进行迭代更新，直到第二损失函数值稳定在第二预设阈值邻域内，则将与第二损失函数值对应的初始评价网络模型确定为评价网络模型。在得到得分网络模型和评价网络模型后，将得分网络模型和评价网络模型对应的初始视频封面确定模型，确定为视频封面确定模型。

上述实施例中，采用随机梯度下降法来最小化损失函数，并求解损失函数的梯度，然后逐层更新初始得分网络模型和初始评价网络模型的参数。在训练的中，为了训练的稳定性以及方便网络学习到正负样本之间的不同，使用Log Loss作为损失函数，对初始得分网络模型参数进行迭代更新，然后，使用带权重的Margin Loss作为损失函数，对初始评价网络模型参数进行微调，从而使得初始得分网络模型和初始评价网络模型能够学习到使得正负样本得分差距足够大的参数，并最终得到视频封面确定模型，用于视频封面确定，整个过程无需人工介入，更不涉及相关人员的专业程度，节省大量人力物力，并且得到的视频封面确定模型可以适用于不同的视频内容，具有较强的泛化能力。

图6是根据一示例性实施例示出的一种视频封面确定方法的流程图，如图6所示，包括以下步骤：

在步骤S10中，获取第二目标视频。

在步骤S20中，按照第二预设规则，从第二目标视频中抽取图像帧，得到第二目标图像集。

在步骤S30中，将每一第二目标图像的图像特征输入视频封面确定模型，得到与第二目标视频对应的视频封面；其中，视频封面确定模型为上述任一实施例中的视频封面确定模型。

其中，第二预设规则与第一预设规则均为从视频中抽取图像帧的规则，该第二预设规则可以与第一预设规相同，也可以与第一预设规不同。

具体地，在获取到需要进行封面确认的第二目标视频后，按照第二预设规则，从第二目标视频抽取若干个图像帧，并将该若干个图像帧确定为第二目标图像集。接着，获取第二目标图像集中每一第二目标图像的图像特征，并将每一第二目标图像的图像特征输入视频封面确定模型，视频封面确定模型根据每一第二目标图像的图像特征输出与第二目标视频对应的视频封面。

可选地，将第二目标图像集中每一第二目标图像的图像特征输入视频封面确定模型，得到每一第二目标图像为封面图像的分数；将分数最高的第二目标图像，确定为与第二目标视频对应的视频封面。

具体地，在将第二目标图像集中每一第二目标图像的图像特征输入视频封面确定模型后，视频封面确定模型会根据每一第二目标图像的图像特征对相应的第二目标图像进行评分，得到一个分数集合，比较每一第二目标图像对应的分数，将分数最高的第二目标图像确定为第二目标视频的视频封面。

上述视频封面确定方法，获取第二目标视频，并按照第二预设规则，从第二目标视频中抽取图像帧，得到第二目标图像集，将每一第二目标图像的图像特征输入视频封面确定模型，得到与第二目标视频对应的视频封面，整个过程无需人工介入，更不涉及相关人员的专业程度，节省大量人力物力，并且得到的视频封面确定模型可以适用于不同的视频内容，具有较强的泛化能力。

图7是根据一示例性实施例示出的一种视频封面确定模型的生成装置框图。参照图7，该装置包括第一视频集获取单元701、样本确定单元702、模型训练单元703和模型生成单元704。

第一视频集获取单元701，被配置为执行获取第一目标视频集；其中，第一目标视频集包括至少一个第一目标视频；

样本确定单元702，被配置为执行根据第一目标视频，获取正样本和负样本；其中，正样本为第一目标视频对应的初始视频封面，负样本为图像特征满足第一预设条件的图像帧；

模型训练单元703，被配置为执行根据正样本和负样本，对预设的初始视频封面确定模型进行训练，并得到第一目标图像为封面的预测分数和用于衡量正样本与负样本参与训练权重的评价分数；

模型生成单元704，被配置为执行将满足第二预设条件的预测分数且满足第三预设条件的评价分数，对应的初始视频封面确定模型，确定为视频封面确定模型。

图8是根据一示例性实施例示出的一种视频封面确定装置框图。参照图8，该装置包括第二目标视频获取单元801、第二目标图像集确定单元802和视频封面确定单元803。

第二目标视频获取单元801，被配置为执行获取第二目标视频；

第二目标图像集确定单元802，被配置为执行按照第二预设规则，从第二目标视频中抽取图像帧，得到第二目标图像集；

视频封面确定单元803，被配置为执行将每一第二目标图像的图像特征输入视频封面确定模型，得到与第二目标视频对应的视频封面；其中，所述视频封面确定模型为上述任一项实施例中的视频封面确定模型。

关于上述实施例中的装置、系统，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种用于视频封面确定的电子设备900的框图。例如，设备900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，设备900可以包括以下一个或多个组件：处理组件902，存储器904，电力组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制设备900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在设备900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为设备900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为设备900生成、管理和分配电力相关联的组件。

多媒体组件908包括在设备900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当设备900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为设备900提供各个方面的状态评估。例如，传感器组件914可以检测到设备900的打开/关闭状态，组件的相对定位，例如组件为设备900的显示器和小键盘，传感器组件914还可以检测设备900或设备900一个组件的位置改变，用户与设备900接触的存在或不存在，设备900方位或加速/减速和设备900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于设备900和其他设备之间有线或无线方式的通信。设备900可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器904，上述指令可由设备900的处理器920执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图10是根据一示例性实施例示出的一种用于视频封面确定的装置900的框图。例如，装置1000可以被提供为一服务器。参照图10，装置1000包括处理组件1022，其进一步包括一个或多个处理器，以及由存储器1032所代表的存储器资源，用于存储可由处理组件1022的执行的指令，例如应用程序。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1022被配置为执行指令，以执行上述方法视频封面确定。

装置1000还可以包括一个电源组件1026被配置为执行装置1000的电源管理，一个有线或无线网络接口1050被配置为将装置1000连接到网络，和一个输入输出(I/O)接口1010。装置000可以操作基于存储在存储器1032的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频封面确定模型的生成方法，其特征在于，包括：

2.根据权利要求1所述的视频封面确定模型的生成方法，其特征在于，所述根据所述第一目标视频，获取正样本和负样本，包括：

3.根据权利要求2所述的视频封面确定模型的生成方法，其特征在于，所述根据每一所述图像属性检测结果、每一所述第一目标图像的图像特征与所述正样本的图像特征之间的距离，得到所述负样本，包括：

将所述第一负样本和所述第二负样本确定为所述负样本。

4.根据权利要求1所述的视频封面确定模型的生成方法，其特征在于，所述初始视频封面确定模型包括初始得分网络模型和初始评价网络模型；

5.根据权利要求1所述的视频封面确定模型的生成方法，其特征在于，所述将满足第二预设条件的预测分数且满足第三预设条件的评价分数，对应的初始视频封面确定模型，确定为视频封面确定模型，包括：

6.一种视频封面确定方法，其特征在于，包括：

获取第二目标视频；

将每一所述第二目标图像的图像特征输入所述视频封面确定模型，得到与所述第二目标视频对应的视频封面；其中，所述视频封面确定模型为权利要求1-5中任一项所述的视频封面确定模型。

7.一种视频封面确定模型的生成装置，其特征在于，包括：

8.一种视频封面确定装置，其特征在于，包括：

第二目标视频获取单元，被配置为执行获取第二目标视频；

视频封面确定单元，被配置为执行将每一所述第二目标图像的图像特征输入所述视频封面确定模型，得到与所述第二目标视频对应的视频封面；其中，所述视频封面确定模型为权利要求1-5中任一项所述的视频封面确定模型。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的视频封面确定模型的生成方法或如权利要求6中所述的视频封面确定方法。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至5中任一项所述的视频封面确定模型的生成方法或如权利要求6中所述的视频封面确定方法。