CN111711771B

CN111711771B - 一种图像选取方法、装置、电子设备及存储介质

Info

Publication number: CN111711771B
Application number: CN202010432485.7A
Authority: CN
Inventors: 靳龙
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2022-09-30
Anticipated expiration: 2040-05-20
Also published as: CN111711771A

Abstract

本申请涉及一种图像选取方法、装置、电子设备及存储介质，该方法包括：从视频中选取至少两张候选图像；获取各所述候选图像对应的第一图像特征；获取所述视频对应的视频特征；计算所述第一图像特征与所述视频特征之间的相似度；根据所述相似度从所述候选图像中确定所述视频对应的目标图像。该技术方案通过计算从视频中选取的候选图像的特征与视频特征的相似度，选择特征相似度较高的候选图像作为该视频的目标图像，这样，使得目标图像与视频的相关性更强，能够更加准确地表达出视频的主要内容。

Description

一种图像选取方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理领域，尤其涉及一种图像选取方法、装置、电子设备及存储介质。

背景技术

目前，视频信息流产品越来越多，占据用户的碎片化时间也越来越多，每天有大量的视频被生产出来，为了使用户更快的获知视频内容，通常会为每个视频设置相应的封面图。

现有技术中，绝大多数的视频通常会使用视频的第一帧作为封面图。由于视频的质量参差不齐，这种封面图往往不能够准确地表达视频的主要内容。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请实施例提供了一种图像选取方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种图像选取方法，包括：

从视频中选取至少两张候选图像；

获取各所述候选图像对应的第一图像特征；

获取所述视频对应的视频特征；

计算所述第一图像特征与所述视频特征之间的相似度；

根据所述相似度从所述候选图像中确定所述视频对应的目标图像。

可选的，所述从视频中选取至少两张候选图像，包括：

以第一预设时间间隔从所述视频中提取第一关键帧；

获取各所述第一关键帧的图像参数；

当所述图像参数符合第一预设条件时，将所述第一关键帧作为所述候选图像。

可选的，所述图像参数包括以下至少一项参数：

像素数、分辨率、大小、颜色、位深、色调、饱和度、亮度、对比度、色彩通道、图像层次、像素灰度特征、直方图差异及边缘变化率。

可选的，所述获取所述候选图像对应的第一图像特征，包括：

将所述候选图像输入预先训练的图像特征提取模型中，通过所述图像特征提取模型提取所述候选图像对应的第一图像特征。

可选的，所述获取所述视频对应的视频特征，包括：

以第二预设时间间隔从所述视频中提取第二关键帧；

提取各所述第二关键帧对应的第二图像特征；

对所述第二图像特征进行筛选，将符合第二预设条件的第二图像特征作为所述视频特征。

可选的，所述获取所述视频对应的视频特征，还包括：

提取所述视频的运动特征、根据所述视频中的声音数据提取声音特征和/或根据所述视频对应的文本数据提取文本特征；

将符合第三预设条件的运动特征、声音特征和/或文本特征作为所述视频特征。

可选的，所述计算所述第一图像特征与所述视频特征之间的相似度，包括：

确定所述第一图像特征对应的第一特征类别和所述视频特征对应的第二特征类别；

根据所述第一特征类别与第二特征类别之间的映射关系确定特征类别关联的所述第一图像特征和视频特征；

将特征类别关联的所述第一图像特征和视频特征进行比较，计算所述相似度。

第二方面，本申请实施例提供了一种图像选取装置，包括：

选取模块，用于从视频中选取至少两张候选图像；

第一获取模块，用于获取各所述候选图像对应的第一图像特征；

第二获取模块，用于获取所述视频对应的视频特征；

计算模块，用于计算所述第一图像特征与所述视频特征之间的相似度；

确定模块，用于根据所述相似度从所述候选图像中选取所述视频对应的目标图像。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行计算机程序时，实现上述方法步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

通过计算从视频中选取的候选图像的特征与视频特征的相似度，选择特征相似度较高的候选图像作为该视频的目标图像，这样，使得目标图像与视频的相关性更强，能够更加准确地表达出视频的主要内容。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像选取方法的流程图；

图2为本申请另一实施例提供的一种图像选取方法的流程图；

图3为本申请另一实施例提供的一种图像选取方法的流程图；

图4为本申请另一实施例提供的一种图像选取方法的流程图；

图5为本申请实施例提供的一种图像选取装置的框图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例的图像选取方法主要是从视频中选取能够体现视频主要内容、区别于其他视频的目标图像，目标图像可以作为视频的封面图。

本申请实施例，从视频中选取一些候选图像，通过深度学习方法分别提取视频和候选图像对应的内容特征，通过比较两者的内容特征，从候选图像中选取目标图像。

下面首先对本发明实施例所提供的一种图像选取方法进行介绍。

图1为本申请实施例提供的一种图像选取方法的流程图。如图1所示，该方法包括以下步骤：

步骤S11，从视频中选取至少两张候选图像。

可选的，可以预先定一个时间间隔，如1秒，以第一预设时间间隔从视频中提取第一关键帧；根据第一关键帧确定候选图像。如，视频时长为1分钟，每秒提取一帧关键帧，则可从该视频中选取60帧关键帧作为候选图像。

其中，候选图像的数量n可以预先设定，如n＝20。也可以根据视频时长确定n，例如，每一分钟的视频选择10张候选图像，则当视频时长为t分钟时，n＝10t。

可选的，还可以根据预先设定的候选图像数量n确定提取关键帧的时间间隔。例如，n＝120，视频时长t为1分钟时，每0.5秒提取一帧关键帧。

步骤S12，获取各候选图像对应的第一图像特征。

其中，第一图像特征可以包括以下至少一项特征：

(1)底层的图像视觉特征，如颜色特征、形状特征、纹理特征、空间关系特征等等；

(2)高层的图像内容特征，如环境、演员、场景、物体、角色、情感、情节等等。

步骤S13，获取视频对应的视频特征。

连续的静态图像变化每秒超过24帧(frame)画面以上时，根据视觉暂留原理，产生平滑连续的视觉效果，这些连续的静态图像组成视频，因此，视频特征可以根据静态图像的图像特征确定。

视频特征可包括视频视觉特征和视频内容特征，视频视觉特征实际上可通过静态图像的图像视觉特征得到，而视频内容特征，也可以基于静态图像的图像内容特征确定。

可选的，由于视频区别于其他媒体的一个重要特征是包含丰富的运动特征，为了准确地确定视频的主要内容，可以提取视频的运动特征。

可选的，视频中还可能包括声音信息，因此，也可对视频的声音特征进行提取。

可选的，如果存在视频对应的文本数据，如标题、字幕、弹幕、评论等等，可以基于文本数据提取文本特征。

视频特征可以包括上述所有特征或部分特征，也可基于上述特征进行分析得到。

步骤S14，计算第一图像特征与视频特征之间的相似度。

其中，可以将第一图像特征和视频特征表示为向量，计算两个向量之间的距离作为相似度。

步骤S15，根据相似度从候选图像中确定视频对应的目标图像。

可选的，可以选择相似度最高的候选图像作为目标图像，或者，还可以将相似度按照由高到低排序，将排序在前的至少两个候选图像展示给用户，由用户选择其中一个候选图像作为目标图像。

本实施例中，通过计算从视频中选取的候选图像的特征与视频特征的相似度，选择特征相似度较高的候选图像作为该视频的目标图像，这样，使得目标图像与视频的相关性更强，能够更加准确地表达出视频的主要内容。

可选的，在上述步骤S11中，可以将视频分段解析，得到视频片段，从各视频片段从提取预设数量的关键帧作为候选图像。

上述实施例中，候选图像包括基于时间从视频中选取的第一关键帧，但选取的第一关键帧中可能会包含一些低质量帧和/或镜头边缘帧。

其中，低质量帧存在以下至少一项情况：亮度或清晰度较低；色彩单一度较高；带有与视频无关的内容，如黑边、Logo(商标、标记等)、二维码、广告或水印等等。

镜头边缘帧指的是镜头转换时处在两个镜头边缘交界处的帧图像。镜头是指摄像机在同一场景拍摄到的连续的帧图像。一个镜头是指摄像机中未被打乱的连续的帧。镜头转换包括：切入、淡入淡出、溶解或消除等镜头转换情况，当从一个镜头转换到另一个镜头时，连续帧被打乱。因此，镜头边缘帧通常不能体现视频的主要内容。

在选择目标图像时，应避免选择低质量帧和镜头边缘帧。本实施例从视频中选取候选图像，包括对第一关键帧进行筛选的步骤。

图2为本申请另一实施例提供的一种视频目标图像选取方法的流程图。如图2所示，步骤S11包括以下步骤：

步骤S21，以第一预设时间间隔从视频中提取至少两个第一关键帧；

步骤S22，获取各第一关键帧的图像参数；

步骤S23，当图像参数符合第一预设条件时，将第一关键帧作为候选图像。

本实施例中，通过图像参数，可以确定第一关键帧是否属于低质量帧和/或镜头边缘帧。

可选的，图像参数包括以下至少一项参数：像素数、分辨率、大小、颜色、位深、色调、饱和度、亮度、对比度、色彩通道、图像层次、像素灰度特征、直方图差异及边缘变化率。

其中，通过像素数、分辨率、大小、颜色、位深、色调、饱和度、亮度、对比度、色彩通道、图像层次等参数可以确定第一关键帧是否为低质量帧。而通过像素灰度特征、直方图差异或边缘变化率等参数，可以确定第一关键帧是否属于镜头边缘帧。可选的，像素灰度特征、直方图差异和/或边缘变化率等参数可通过镜头检测算法得到。

本实施例中，对第一关键帧进行筛选，排除图像参数不符合第一预设条件的关键帧，即低质量帧和/或镜头边缘帧，使得到的候选图像均为质量较高且能够反映出视频中主要场景的关键帧。这样，通过对关键帧进行筛选，进一步提高目标图像选择的效率，使得目标图像能够更加准确地表达出视频的主要内容，可以更好地引导用户观看视频，提高对用户的吸引力，提高视频点击量和播放量。

在可选实施例中，上述步骤S12包括：将候选图像输入预先训练的图像特征提取模型中，通过图像特征提取模型提取候选图像对应的第一图像特征。

其中，图像特征提取模型基于预设卷积神经网络(Convolutional NeuralNetworks,CNN)训练得到。在训练时，基于所需的特征类别对样本图像进行标注，通过第一预设卷积神经网络对标注后的样本图像进行训练，学习样本图像中标注的特征类型，从而得到图像特征提取模型。这样，后续在使用该图像特征提取模型对候选图像进行处理时，可以提取出特征类型对应的图像特征。

本实施例中，为了分析候选图像是否能够体现视频的主要内容，第一图像特征可以包括图像内容特征。

举例来说，图像内容特征的主要内容如下：

环境包括：城市、草原、沙漠、太空等等；

演员包括：男、女、国内、国外，以及演员姓名等等；

场景包括：室内、室外、雨天、公园、健身房、飞机内等等；

物体包括：动物、车、飞机、枪、宇宙飞船、太阳等等；

角色包括：医生、士兵、飞行员、宇航员、警察、消防员等等；

情感包括：开心、悲伤、激动、愤怒等；

情节包括：吃饭、运动、谈话、枪战、飞车、武打等。

本实施例中，候选图像A、B、C对应的第一图像特征如下表1所示，

表1

候选图像

环境

演员

场景

物体

角色

情感

情节

A

太空

国外男

飞船内

机器人

宇航员

紧张

枪战

B

山脉

国外男

暴风雪

雪上摩托

士兵

激烈

追击

C

城市

国外女

室内

食物

服务员

轻松

吃饭

图3为本申请另一实施例提供的一种视频目标图像选取方法的流程图。如图3所示，在可选实施例中，可以通过视频中关键帧的图像特征来确定视频特征，上述步骤S13包括：

步骤S31，以第二预设时间间隔从视频中提取至少两个第二关键帧。

其中，第二预设时间间隔可以与上述第一预设时间间隔相同。为了更准确地确定视频特征，可以多提取一些第二关键帧进行分析，即第二预设时间间隔也可以小于上述第一预设时间间隔。

可选的，为了提高后续特征提取的准确度和效率，可以根据上述实施例的方法，对第二关键帧进行过滤，排除掉第二关键帧中的低质量帧和/或镜头边缘帧。

步骤S32，提取各第二关键帧对应的第二图像特征。

其中，图像特征提取方法可以与步骤S12中相同，即采用上述图像特征提取模型进行各个第二关键帧的图像特征提取。第二图像特征的特征类别也可与第一图像特征的特征类别相同。

步骤S33，对第二图像特征进行筛选，将符合第二预设条件的第二图像特征作为视频特征。

可选的，视频特征可以包括所有的第二图像特征，即第二预设条件可以设置为无限制；也可以对第二图像特征中的各个特征类别进行分析筛选得到视频特征。

例如，某个特征类别中存在相同或相近似的特征内容时，第二预设条件可以设置为提取该特征类别中相同或相近似的特征内容，归纳融合后作为视频特征中该特征类别的特征内容；又例如，第二预设条件可以设置为当该特征类别中相同或相近似的特征内容占比超过预设百分比时，将其归纳融合后作为视频特征中该特征类别的特征内容；又例如，第二预设条件可以设置各特征类别保留内容不同或不相似的特征内容作为视频特征中该特征类别的特征内容；等等。

本实施例中，基于视频中的关键帧提取视频特征，可以更加准确、更全面地确定视频对应的内容特征，从而为后续目标图像的准确确定提供支撑。

图4为本申请另一实施例提供的一种视频目标图像选取方法的流程图。如图4所示，在一个可选实施例中，步骤S13包括：

步骤S41，提取视频的运动特征、根据视频中的声音数据提取声音特征和/或根据视频对应的文本数据提取文本特征。

其中，可以提取视频以下至少一个维度的特征：

(1)运动特征

视频与图像最主要的区别在于视频中可能包括运动。其中，视频中的运动通常分为场景中对象物体产生的局部运动及基于摄像机移动的全局运动。因此，提取视频的运动特征可以包括：对象的运动特征，如出现、消失、进入、退出、运动、停止等等；摄像机的运动特征，如上下摇、左右摇、移动、推、拉等等。运动特征的提取可以采用以下方式：结合高斯混合模型和背景差技术、基于多尺度小波变换技术、基于部分稀疏约束非负矩阵分解方法等等。

(2)声音特征

由于大部分视频中都包含声音，因此，本实施例可以进一步从视频中的声音数据中提取声音特征。本实施例中，可以基于卷积神经网络训练声音特征提取模型，该模型通过将卷积神经网络应用到声音识别的声学建模中，利用卷积的不变性克服声音信号本身的多样性，将整个声音信号分析得到的时频谱当作一张图像来处理，运用图像中广泛应用的深层卷积神经网络对其进行识别。

声音特征可以包括以下至少一项特征：过零率、短时能量、短时平均幅度差、短时功率谱密度、谱熵、基频周期、共振峰等等。声音特征还可以包括声音数据中的声音类型，如语音、掌声、玻璃碎裂声、动物叫声、音乐、风声、雨声、飞机起飞声等等。如果声音数据中包括语音数据，可以识别语音内容类型，如欢呼声、解说声、男声、女声、哭声等等。对于语音数据，还可以进一步识别语音的具体语义内容，尤其是当视频中不包括字幕时，识别具体语义内容可以便于更准确地确定视频内容特征。

(3)文本特征

由于还存在该视频对应的文本数据，如标题、字幕、弹幕、评论等等。其中，可以通过字幕抓取软件抓取视频中的字幕，通过Python爬虫方式根据弹幕URL爬取视频所有弹幕数据，还可以通过预先编辑的脚步抓取视频标题和评论，等等。本实施例中，可以基于这些文本数据分析出视频对应的文本特征。

步骤S42，将符合第三预设条件的运动特征、声音特征和/或文本特征作为视频特征。

其中，视频特征可以包括上述至少一个维度的全部特征，即第三预设条件可以设置为无限制；也可以对各维度的特征进行筛选后得到视频特征。

例如，运动特征可能包括多个对象的局部运动情况，第三预设条件可以设置为对象出现次数最多或排在前几位，或出现次数超过一定阈值，筛选出现次数较多的对象的运动特征作为视频特征。

又例如，对于声音特征，第三预设条件可以设定为短时能量或短时功率谱密度超过预设阈值，或者，需要选择的声音类型，如语音，等等。

又例如，对于文本特征，如提取到的文本特征包括多个关键词，第三预设条件可以设定为关键词的出现次数，将出现次数较高的关键词作为视频特征。

本实施例中，通过提取视频的上述至少一个维度的特征，可以更准确地分析出视频的实际主要内容，从而提高后续选择视频目标图像的准确度。

在可选实施例中，当一个维度的特征不足以完整的去表现所识别的内容时，采取多维度特征的融合，利用互补信息，从而提高识别率，学习到更好的特征表示。例如，仅根据视频的图像特征来确定视频特征，可能难以准确地反应视频的实际内容。因此，可以结合视频的图像特征、运动特征、声音特征和文本特征综合分析视频的实际内容。

本实施例中，可以预先训练基于多维度特征的分类识别模型，通过该分类识别模型，基于上述视频的第二图像特征、运动特征、声音特征、文本特征等多个维度特征分析视频的主要内容，得到最终的视频特征。这样，使得视频特征的提取更加准确，更能体现视频所要表现的主要内容。

例如，从视频中识别到的第二图像特征包括：球员、足球、足球场、观众、球门等等；

运动特征包括：球员的走动、球的移动和摄像机的运动等；

文本特征包括：足球、武磊、精彩等；

声音特征包括：观众欢呼声、解说声、背景音乐等。

通过上述分类识别模型对第二图像特征、运动特征、声音特征、文本特征进行分类后，得到的视频特征为：武磊进球，全场欢呼。

本实施例中，通过分类识别模型对多个维度的特征进行分类以确定最终的视频特征，使得视频特征的提取更加准确、全面，能够体现出视频的实际内容。

可选的，如果第一图像特征与视频特征的特征类别不同，可以预先设定两者特征类别之间的映射关系。计算相似度时，将特征类别关联的特征进行比较。上述步骤S14包括：

步骤A1，确定第一图像特征对应的第一特征类别和视频特征对应的第二特征类别。

在进行第一图像特征或视频特征提取时，可以预先设定好需要提取的特征类别表，基于设定的特征类别进行特征提取。这样，在步骤A1中，可以根据特征类别表来确定第一图像特征对应的第一特征类别或视频特征对应的第二特征类别。或者，第一图像特征或视频特征均为一个特征集合，在这个特征集合中，每个排序位置的特征所对应的特征类别均为预先设定好的，如，第一图像特征中，第一个特征的特征类别为环境，第二个特征的特征类别为演员，第三个特征的特征类别为场景，……这样，在步骤A1中，可以根据预先设定的排序确定第一图像特征或视频特征对应的特征类别。

步骤A2，根据第一特征类别与第二特征类别之间的映射关系确定特征类别关联的第一图像特征和视频特征。

步骤A3，将特征类别关联的第一图像特征和视频特征进行比较，计算相似度。

其中，如果第一图像特征和视频特征对应存在相同特征类别的特征，则可直接对这些特征进行比较，如果两者存在不同特征类别的特征，则需要根据预先设定的特征映射关系，确定不同特征类别之间的对应关系后再进行比较。

例如，第一图像特征包括第一特征类别如下：环境、演员、场景、物体、角色、情感、情节；视频特征包括的第二特征类别为：类型、环境、演员、国家、语言、时代、场景、道具、角色、评价、时长、情节。其中，两者之间存在不同的特征类别，特征类别之间的映射关系如下表2所示，

表2

第一特征类别	第二特征类别
		环境	类型、环境、国家、语言、时代
演员	演员
		场景	场景
物体	道具
		角色	角色
情感	评价
		情节	情节

对于不相同且不具有对应关系的特征类别，如“时长”，在进行相似度分析时可以排除掉。基于上表中的特征类别的对应关系，进行特征比较以计算第一图像特征和视频特征之间的相似度。

可选的，步骤S14中，第一图像特征和视频特征之间的相似度可以通过以下至少一种方式计算得到：

欧几里得距离(Eucledian Distance)、曼哈顿距离(Manhattan Distance)、明可夫斯基距离(Minkowski distance)、余弦相似度(Cosine Similarity)、JaccardSimilarity、皮尔森相关系数(Pearson Correlation Coefficient)等等。

例如，可通过如下公式计算第一图像特征和视频特征之间的欧几里得距离来确定第一图像特征和视频特征之间的相似度：

其中，x_i分别表示第一图像特征，y_i表示与x_i特征类别相同或相对应的视频特征，n表示第一图像特征与视频特征进行比较的特征类别的个数，n为大于等于1的整数。

如果候选图像与视频之间的相似度基于第一图像特征和视频特征之间的欧几里得距离确定，则可选择与视频的欧几里得距离最小的候选图像作为视频的目标图像。

如果候选图像与视频之间的相似度基于第一图像特征和视频特征之间的余弦相似度确定，则可选择与视频的余弦相似度最大的候选图像作为视频的目标图像。

若是基于多个相似度计算方式候选图像与视频之间的相似度，如欧几里得距离S₁和余弦相似度S₂，则可通过如下公式计算候选图像与视频之间的相似度S：

则最终得到的S值越大，候选图像与视频越接近。

本实施例中，通过从视频中选取多张候选图像，通过分析候选图像的图像特征与视频特征之间的相似度，确定作为该视频目标图像的候选图像。这样，使得目标图像与视频的相关性更强，能够更加准确地表达出视频的主要内容。

下述为本申请装置实施例，可以用于执行本申请方法实施例。

图5为本申请实施例提供的一种图像选取装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图5所示，该图像选取装置包括：

选取模块61，用于从视频中选取至少两张候选图像；

第一获取模块62，用于提取各候选图像对应的第一图像特征；

第二获取模块63，用于提取视频对应的视频特征；

计算模块64，用于计算第一图像特征与视频特征之间的相似度；

确定模块65，用于根据相似度从候选图像中选取视频对应的目标图像。

本申请实施例还提供一种电子设备，如图6所示，电子设备可以包括：处理器1501、通信接口1502、存储器1503和通信总线1504，其中，处理器1501，通信接口1502，存储器1503通过通信总线1504完成相互间的通信。

存储器1503，用于存放计算机程序；

处理器1501，用于执行存储器1503上所存放的计算机程序时，实现以下上述方法实施例的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect，P C I)总线或扩展工业标准结构(Extended IndustryStandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以下上述方法实施例的步骤。

需要说明的是，对于上述装置、电子设备及计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

进一步需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像选取方法，其特征在于，包括：

从视频中选取至少两张候选图像；

获取各所述候选图像对应的第一图像特征；

获取所述视频对应的视频特征；

计算所述第一图像特征与所述视频特征之间的相似度；

根据所述相似度从所述候选图像中确定所述视频对应的目标图像；

所述计算所述第一图像特征与所述视频特征之间的相似度，包括：

2.根据权利要求1所述的方法，其特征在于，所述从视频中选取至少两张候选图像，包括：

以第一预设时间间隔从所述视频中提取至少两个第一关键帧；

获取各所述第一关键帧的图像参数；

3.根据权利要求2所述的方法，其特征在于，所述图像参数包括以下至少一项参数：

4.根据权利要求1所述的方法，其特征在于，所述获取所述候选图像对应的第一图像特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取所述视频对应的视频特征，包括：

以第二预设时间间隔从所述视频中提取至少两个第二关键帧；

提取各所述第二关键帧对应的第二图像特征；

6.根据权利要求1所述的方法，其特征在于，所述获取所述视频对应的视频特征，包括：

7.一种图像选取装置，其特征在于，包括：

选取模块，用于从视频中选取至少两张候选图像；

第二获取模块，用于获取所述视频对应的视频特征；

确定模块，用于根据所述相似度从所述候选图像中选取所述视频对应的目标图像；

所述计算模块，用于确定所述第一图像特征对应的第一特征类别和所述视频特征对应的第二特征类别；

8.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述计算机程序时，实现权利要求1-6任一项所述的方法步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-6任一项所述的方法步骤。