CN111523400B

CN111523400B - 视频代表帧提取方法及装置

Info

Publication number: CN111523400B
Application number: CN202010245348.2A
Authority: CN
Inventors: 田泽康; 蒋文; 危明
Original assignee: Ysten Technology Co ltd
Current assignee: Ysten Technology Co ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-10-13
Anticipated expiration: 2040-03-31
Also published as: CN111523400A

Abstract

本发明实施例为了解决视频代表帧提取过程中没有充分利用整个视频中统计信息和时间上的均匀性的问题，提供了一种获取待提取视频的候选帧集合；获取所述候选帧集合中各图像帧的度量指标，形成待提取视频的度量指标向量；根据所述度量指标的均值、方差，计算各图像帧的度量指标的密度值；根据各图像帧的度量指标的密度值获取各图像帧的图像质量评分；根据各图像帧的图像质量评分、各图像帧之间的相似度和各图像帧之间的时间位置惩罚值，最优化求解出代表帧。能够评价指标的选取考虑了整体统计信息，代表帧的选取更具时间均匀性。同时提供了相应的装置、设备和介质。

Description

视频代表帧提取方法及装置

技术领域

本发明属于图像处理技术领域，具体而言，涉及一种视频代表帧提取方法、提取装置、计算机可读介质及电子设备。

背景技术

视频作为一种高效的信息记录和传递方式，通过视频人们可以得到娱乐、获取知识，视频正成为人们日常生活中重要的部分。互联网和自媒体的发展，积累了大量的视频资源，如何能够快速高效的了解视频的内容概要从而判断是否符合自己的需求，成为一个需要解决的问题。鉴于视频通常具有比较长的时长，不能像图片那样一目了然，一种表达视频内容概要的方式是从视频中提取代表帧。代表帧由一个或多个视频帧组成，从原始视频中根据一定的规则提取，旨在让观看者通过该图片集合，了解视频的大致内容，充当视频概要的作用。

现有的代表帧提取方法，其关键步骤主要有两个，第一步骤是视频帧的质量度量，即通过一定的规则和算法对视频中的每帧的质量进行评分，第二步骤筛选，即按照一定的规则选取一部分帧作为代表帧。下面阐述现有方法在这两方面存在的缺点。

第一，现有方法在度量过程中，主要基于单帧的信息进行计算，例如计算当前帧的清晰度，信息量，梯度，亮度，饱和度等，没有充分利用整个视频中统计信息，而实际上这些度量指标并不是越大越好，例如亮度过高的和亮度过低的画质都不好。

第二，现有方法在筛选过程中，大部分方法直接根据单个视频帧的评分的排序，部分方法还考虑了选取的代表帧的多样性。本文提出的方法，综合考虑了代表帧的画质，多样性和时间区间分布，并设计了一种综合多种因素的代表帧优先模型。目前的其他方法都没有考虑抽取代表帧在时间上的均匀性，即抽取的代表帧应该近可能的分散在整个视频时间轴上，这样使抽取的代表帧集合能更好的体现整个视频的情节信息，而不能只分布在某些局部时间段内。

发明内容

本发明为了解决上述现有技术的缺点，本发明实施例公开了一种从视频中提取代表帧的方法，该方法考虑了整个视频中不同指标的统计信息，并能够抽取在时间上分布均匀的代表帧集合，能更好的代表整个视频的概要信息，具有良好的效果，将代表帧在时间上的均匀性也纳入考虑范围，筛选出的代表帧能够反映视频不同时间段的信息。

具体地，第一方面，本发明实施例提供了一种视频代表帧提取方法，包括如下步骤：

S110、获取待提取视频的候选帧集合C；

S120、获取所述候选帧集合中各图像帧的度量指标，形成待提取视频的度量指标向量；

S130、根据所述度量指标的均值、方差，计算各图像帧的度量指标的密度值；

S140、根据各图像帧的度量指标的密度值获取各图像帧的图像质量评分；

S150、根据各图像帧的图像质量评分、各图像帧之间的相似度和各图像帧之间的时间位置惩罚值，从所述候选帧集合中选出代表帧集合Z使得，∑_z∈ZScore(z)-α∑_i，j∈ZSim(i，j)-β∑_i，j∈ZPos(i，j)最大，其中Score(z)代表图像质量评分，Sim(i，j)代表图像帧之间的相似度，Pos(i，j)代表图像帧之间的时间位置惩罚值，α，β分别为预设的相似度惩罚系数和时间位置惩罚系数。

进一步地，所述步骤S150具体包括：

S151、设定候选集合C^*＝C，当前代表帧集合为空集合，定义每个候选帧的增益函数Z⁺(i):

S152、针对候选集合中的所有帧的增益函数值Z⁺，选取最大增益函数值对应的图像帧k；

S153、令所述代表帧集合Z^*＝k∪Z^*，候选集合C^*＝C^*-k；

S154、重复执行步骤S152、S153直到Z^*中的元素数目为K，K为代表帧集合Z中的代表帧数量目标值；

S155、输出代表帧集合结果Z^*。

进一步地，所述度量指标包括平均亮度、平均饱和度、平均梯度和色彩丰富度中的一个或多个。

进一步地，所述步骤S120包括：

提取图像的亮度分量，然后求取均值，并根据灰度级归一化到区间[0,1]之间，获取所述图像帧的平均亮度；和/或，

提取图像的饱和度分量，然后求取均值并归一化到[0,1]之间，获取所述图像帧的平均饱和度；和/或，

利用Laplace算子计算梯度值，然后求均值并归一化到[0,1]之间，获取所述图像帧的平均梯度；和/或，

将整个色彩空间的在每个维度上进行分段区间划分，形成一个多维的网格；统计所述图像帧中的像素颜色落入到每个子区间中的数目，如果一个子区间中像素数目超过预设的阈值Tr，则认定所述图像帧包含了该子区间所代表的平均颜色；统计超过阈值Tr的子区间数目N_pass，设色彩空间的多维网格的总子区间数目为N_grid＝B³，则，色彩丰富度Colorful(·)＝N_pass/N_grid。

进一步地，所述步骤S130包括，

分别计算平均亮度向量L、平均饱和度向量S、平均梯度向量G和色彩丰富度向量R的均值和方差(μ，σ)；

分别用平均亮度向量L、平均饱和度向量S、平均梯度向量G和色彩丰富度向量R作为度量指标向量X带入到如下公式计算第i个图像帧的度量指标的密度值：

x代表度量指标向量X中对应第i个图像帧的度量指标值，从而获取度量指标密度值向量O^l，O^s，O^g，O^r，其中，O^l代表平均亮度对应的密度向量，O^s代表平均饱和度对应的密度向量，O^g代表平均梯度对应的密度向量，O^r代表色彩丰富度对应的密度向量；

对度量指标密度值向量O^l，O^s，O^g，O^r，根据最大最小值归一化到[0,1]区间，获得为Y^l，Y^s，Y^g，Y^r，其中，Y^l代表归一化的平均亮度对应的密度向量，Y^s代表归一化的平均饱和度对应的密度向量，Y^g代表归一化的平均梯度对应的密度向量，Y^r代表归一化的色彩丰富度对应的密度向量。

进一步地，所述步骤S140包括如下步骤：

通过如下公式获取图像质量评分Score，

Score(C)＝w^l·Y^l+w^s·Y^s+w^g·Y^g+w^r·Y^r，其中w^l，w^s，w^g，w^r为各分量的权重系数。

进一步地，所述步骤S150中包括：

图像帧之间的时间位置惩罚值Pos(i，j)通过如下公式获取：其中，T代表待提取视频的总时长，t_i为取视频帧帧i在视频中的时间戳，t_j为取视频帧帧j在视频中的时间戳，K为代表帧集合中的代表帧数量目标值。本发明实施例中的图像质量评分中的分量的值考虑了整体视频的统计信息，有效过滤了过高和过低的指标值。

本发明实施例第二方面，提供了一种视频代表帧提取装置，包括：

候选帧提取模块，用于获取待提取视频的候选帧集合C；

度量指标计算模块，用于获取所述候选帧集合中各图像帧的度量指标，形成待提取视频的度量指标向量；

度量指标密度值计算模块，用于根据所述度量指标的均值、方差，计算各图像帧的度量指标的密度值；

图像质量评分获取模块，用于根据各图像帧的度量指标的密度值获取各图像帧的图像质量评分；

最优化模块，用于根据各图像帧的图像质量评分、各图像帧之间的相似度和各图像帧之间的时间位置惩罚值，从所述候选帧集合中选出代表帧集合Z使得，∑_z∈ZScore(z)-α∑_i，j∈ZSim(i，j)-β∑_i，j∈ZPos(i，j)最大，其中Score(z)代表图像质量评分，Sim(i，j)代表图像帧之间的相似度，Pos(i，j)代表图像帧之间的时间位置惩罚值，α，β分别为预设的相似度惩罚系数和时间位置惩罚系数。

本发明第三方面，提供了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一的方法。

本发明第四方面，提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现上述任一的方法。

本发明实施例中的从视频中提取代表帧的方法和装置，考虑了整个视频中不同指标的统计信息，并能够抽取在时间上分布均匀的代表帧集合，能更好的代表整个视频的概要信息，具有良好的效果。本发明实施例中提出的画面度量方法中，使用了整个视频中指标的统计信息进行评分，有效的过滤了过高和多低的画面。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1为本发明一些实例中的视频代表帧提取方法、提取装置运行的系统架构示意图；

图2为本发明一些实例中的视频代表帧提取方法流程图；

图3为本发明一些实施例中的视频代表帧提取方法算法模块图示意图；

图4为本发明另一些实施例中的视频代表帧提取方法流程示意图；

图5为本发明一些实施例中的最优化算法的流程示意图；

图6为本发明一些实施例中的基于上述附图中的视频代表帧提取方法所实现的视频代表帧提取装置的系统示意图；

图7为本发明一些实施例中视频代表帧提取方法或者提取装置运行的计算机系统结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了可以应用本申请实施例的视频代表帧提取方法或视频代表帧提取装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送数据(例如视频)等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如视频播放软件、视频处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且支持数据传输的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的视频提供支持的后台服务器。后台服务器可以对接收到的图像处理请求等数据进行分析等处理，并将处理结果(例如对视频进行分割后得到的视频片段或其他数据)反馈给与其通信连接的电子设备(例如终端设备)。

需要说明的是，本申请实施例所提供的视频代表帧提取方法可以由服务器105执行，相应地，视频代表帧提取装置可以设置于服务器105中。此外，本申请实施例所提供的视频代表帧提取方法也可以由终端设备101、102、103执行，相应地，视频代表帧提取装置也可以设置于终端设备101、102、103中。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当视频代表帧提取方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该系统架构可以仅包括用于分割视频方法运行于其上的电子设备(例如终端设备101、102、103或服务器105)。

本发明实施例提出的代表帧提取方法主要分为两个部分，第一部分获得视频帧的质量度量，第二部分为代表帧优选方法，综合视频帧的度量值，视频帧之间的相似，和视频帧的所在的时间位置提取约束条件下的最优代表帧集合。

图2示出了依照本发明实施例的一种视频代表帧提取算法的一般流程，图3示出了系统包含的主要算法模块，其具体步骤如下：

S1、视频帧质量度量方法

从整个视频V中，按照固定的时间间隔采样视频帧，或者直接从压缩的视频中提取所有关键帧，作为候选集合C＝{c_i|i＝1，...，N}，其中N是候选集合中的帧数目，提取候选帧的同时记录候选帧所在的时间位置。

设目标为从V中提取最多K个代表帧，K为预先设定的参数，且满足K＜N。

计算候选集合每帧的度量指标：

1.平均亮度l_i＝mean(Brightness(c_i))，计算方法为先提取图像的亮度分量，然后求取均值，并根据灰度级归一化到区间[0，1]之间。

2.平均饱和度s_i＝mean(Saturation(c_i))，计算方法为先提取图像的饱和度分量，然后求取均值并归一化到[0，1]之间。

3.平均梯度g_i＝mean(Gradient(c_i))，梯度的函数Gradient(·)可以用Laplace算子，然后求均值并归一化到[0，1]之间。

4.色彩丰富度r_i＝Colorful(c_i)，其中Colorful(·)函数度量一幅画面色彩的丰富程度。现有的色彩丰富度量方法基于RGB通道差值的方差和均值来计算，差值越大则认为颜色越丰富。本专利采用一种更加直观线性的色彩丰富度计算方法，具体计算方法为将整个色彩空间的在每个维度上进行分段区间划分，形成一个多维的网格，例如可以在RGB色彩空间上，将每个颜色维度划分成B个区间，则整个色彩空间被划分成B³个子区间。统计图像c_i中的像素颜色落入到每个子区间中的数目，如果一个子区间中像素数目超过预设的阈值T_r，则认为图像包含该子区间所代表的平均颜色。统计超过阈值Tr的子区间数目N_pass，设色彩空间的多维网格的总子区间数目为N_grid＝B³，则：Colorful(·)＝N_pass/N_grid在一个实施例中，取B＝20,N_grid＝8000,Tr＝max(30，0.3·N_pixels/N_grid)，其中N_pixels为帧图像的像素数目。

上述的度量指标可以采用一个，也可以采用组合，也可以采用多个或者采用其他的度量指标。

上述计算色彩丰富度的方法还可以采用聚类的办法计算画面包含的颜色数目，计算颜色直方图的色彩空间除RGB还可以是CIELab，HSV等。

得到整个视频的度量指标向量，亮度向量L＝[l₁，...，l_i，...，l_N]^T，i＝1，...，N，同理得到饱和度向量S，梯度向量G，色彩丰富度向量R。对某一向量X其根据统计信息计算输出值方法的一种实现方式是，用高斯密度函数进行密度估计，即计算向量X的均值和方差分别为(μ，σ)，则输出值：

分别对亮度向量，饱和度向量，梯度向量作为X应用上述计算O(X)得到输出向量O^l，O^s，O^g。

对所有向量O^l，O^s，O^g，O^r，根据最大最小值归一化到[0，1]区间，分别记为Y^l，Y^s，Y^g，Y^r。

最终的视频帧的质量评分为:

Score(C)＝w^l·Y^l+w^s·Y^s+w^g·Y^g+w^r·Y^r

其中w^l，w^s，w^g，w^r为各分量的权重系数，可根据经验人工设置或通过机器学习方法得到。

需要说明的是，上述求取密度值得方式除了，高斯密度函数，还可以采用直接密度分布函数，或者使用高斯函数以外的参数化模型进行拟合

S2、代表帧优选方法

本发明中公开的代表帧优先方法中，综合视频帧的度量值，视频帧之间的相似度，和选取的视频帧在时间轴上的均匀性，在数学上建模为一个多约束条件下的最优化问题。

其中Z为最终选取的代表帧集合，Sim(·)，Pos(·)分别为相似度惩罚函数和时间位置惩罚函数，α，β分别为预设的相似度惩罚系数和时间位置惩罚系数。

该公式右边由三项组成，第一项要求选取代表帧的画面质量之和越大越好，第二项要求选取代表帧之间的相似度之和越小越好，第三项要求选取的代表帧在时间上的距离越大越好，即要求选取的时间位置尽量均匀分布。

上述的约束模型包含三项，还可以增加其他约束项。

相似度惩罚函数

两个视频帧图像i，j的相似度可以用现有技术获得，例如最简单的可以实现为归一化互相关函数(NCC)

Sim＝NCC(i，j)。相似度计算还可以任何其他能够度量图片之间相似程度的函数。

时间位置惩罚函数

设视频V的总时长为T，定义t_i为取帧i在视频中的时间戳，两个视频帧i，j的距离越近，时间位置函数的输出应该越大。在一个实施例中，定义时间位置函数如下：

该函数在当t_i＝t_j时取得最大值1，当t_i，t_j的距离超过平均时间间隔T/K时为0，不再给与惩罚。时间位置惩罚函数还可以是任意满足随两点之间的距离增大而减小的函数。

最优化求解方法

从数学上来看方程Z，其第二第三项都依赖于整个选定的集合，整个组合的可能组合数目为是一个典型的组合优化问题，求解其全局的最优解是NP-hard的，在本发明实施例中公开一种基于贪婪法则的近似解求解方法。如下：

1、初始条件，候选集合C^*＝C，当前代表帧集合为空集合。将优化目标函数改写为对每个候选帧i的形式，用当前代表帧集合Z^*替代约束条件中的Z，定义每个候选帧的增益函数Z⁺(i):

2、针对当前候选集中的所有帧的增益函数值Z⁺值，选取最大值对应的帧k加入到当前代表帧集合，更新当前代表帧集合更新候选集合/>

3、令当前候选集候选集合/>

4、重复步骤2、3直到Z^*中的元素数目为K；

5、输出代表帧集合结果Z^*

以上方法的时间复杂度为O(KN²)，计算速度快，具有良好的效果。

上述的最优化求解方法，还可以采用动态规划，或者其他放松约束条件的方法，甚至是暴力遍历解空间求解。

上述视频帧质量度量方法运行于图3中的视频帧质量度量模块，代表帧优选方法运行于图3中的代表帧优选模块。

本发明实施例提供了一种基于视频统计信息得到指标的输出值的方法，能有效抑制视频中评估指标过大或者过小的帧，色彩丰富度算法简单有效；本发明实施例综合视频帧的度量值，视频帧之间的相似度，和选取的视频帧在时间轴上的均匀性建立代表帧优先数学模型，以及一种基于贪婪法则的高效求解方法。考虑了整个视频中不同指标的统计信息，并能够抽取在时间上分布均匀的代表帧集合，能更好的代表整个视频的概要信息，具有良好的效果。本发明实施例中中提出的画面度量方法中，使用了整个视频中指标的统计信息进行评分，有效的过滤了过高和多低的画面。

本发明的另一些实施例如图4所示，提供了一种视频代表帧提取方法，包括如下步骤：

S110、获取待提取视频的候选帧集合C，可以通过采样的方式从待提取视频中提取出候选帧集合，也可以采用关键帧提取方法，提取出多个关键帧形成候选帧集合；本发明实施例中，提取候选帧的同时记录候选帧所在的时间位置。

S120、获取所述候选帧集合中各图像帧的度量指标，形成待提取视频的度量指标向量；所述度量指标可以采用平均亮度、平均饱和度、平均梯度和色彩丰富度中一种或者多种，也可以采用其他的度量指标，为了使得度量指标具有可比性，可进行归一化处理，统一到一个维度上。

S130、根据所述度量指标的均值、方差，计算各图像帧的度量指标的密度值；所述密度值可以采用高斯密度值，也可以采用其他的密度值。

S140、根据各图像帧的度量指标的密度值获取各图像帧的图像质量评分；所述图像质量评分用于评价图像帧的亮度、饱和度、梯度或者色彩丰富度中一种和多种组合情况。为了充分考虑多种情形，可以将多种度量指标考虑进来，用于评价图像的质量。

S150、根据各图像帧的图像质量评分、各图像帧之间的相似度和各图像帧之间的时间位置惩罚值，从所述候选帧集合中选出代表帧集合Z使得，∑_z∈ZScore(z)-α∑_i，j∈ZSim(i，j)-β∑_i，j∈ZPos(i，j)最大，其中Score(z)代表图像质量评分，Sim(i，j)代表图像帧之间的相似度，Pos(i，j)代表图像帧之间的时间位置惩罚值，α，β分别为预设的相似度惩罚系数和时间位置惩罚系数。通过将各个图像帧对应图像质量评分、相互的相似度、和时间未知惩罚值带入到上述的公式中，获取输出，通过最优化方法从候选帧集合中选取出代表帧，使得输出最大。

本发明实施例中的代表帧提取方法，尽量同时使得所选取的代表帧图像质量好、相互相似小、间隔大；能够更加代表待提取视频，能够将代表帧在时间上的均匀性也纳入考虑范围，筛选出的代表帧能够反映视频的不同时间段的信息。

暴力求解上述的最优化模型需要较大地计算开销，本发明实施例采用了近似求解方法，具体地，如图5所示，所述步骤S150具体包括：

S153、令所述代表帧集合Z^*＝k∪Z^*，候选集合C^*＝C^*-k；

S155、输出代表帧集合结果Z^*。上述的方法时间复杂度为O(KN²)，计算速度快，具有良好的效果。

进一步地，所述步骤S120包括：

利用Laplace算子计算梯度值，然后求均值并归一化到[0,1]之间，，获取所述图像帧的平均梯度；和/或，

将整个色彩空间的在每个维度上进行分段区间划分，形成一个多维的网格；统计所述图像帧中的像素颜色落入到每个子区间中的数目，如果一个子区间中像素数目超过预设的阈值Tr，则认定所述图像帧包含了该子区间所代表的平均颜色；统计超过阈值Tr的子区间数目N_pass，设色彩空间的多维网格的总子区间数目为N_grid＝B³，则，色彩丰富度Colorful(·)＝N_pass/N_grid，其中，每个维度划分成B个区间。

进一步地，所述步骤S130包括，

x代表度量指标向量X中对应第i个图像帧的度量指标值，从而获取度量指标密度值向量O^l，O^s，O^g，O^r，其中，O^l代表平均亮度对应的密度向量，O^s代表平均饱和度对应的密度向量，O^g代表平均梯度对应的密度向量，O^r代表色彩丰富度对应的密度向量；上述密度值得计算除了采用高斯密度函数进行计算外，还可以采用其他密度函数值。

进一步地，利用各个度量指标对应的密度值求出图像质量评分，具体地，所述步骤S140包括如下步骤：

通过如下公式获取图像质量评分Score，

进一步地，所述步骤S150中包括：

图像帧之间的时间位置惩罚值Pos(i，j)通过如下公式获取：其中，T代表待提取视频的总时长，t_i为取视频帧帧i在视频中的时间戳，t_j为取视频帧帧j在视频中的时间戳，K为代表帧集合中的代表帧数量目标值。该函数在当t_i＝t_j时取得最大值1，当t_i，t_j的距离超过平均时间间隔T/K时为0，不再给与惩罚。

两个视频帧图像i，j的相似度可以用现有技术获得，例如最简单的可以实现为归一化互相关函数(NCC)相似度Sim＝NCC(i，j)。

本发明实施例中充分提供度量指标来衡量各帧的图像质量评分，包括采用平均亮度、饱和度、梯度和色彩丰富度来进行衡量，同时在选取代表帧的时候除了考量图像质量评分，还考虑时间上均匀性，代表帧之间的差异性，使得代表帧更具代表性。

基于上述的视频代表帧提取方法，本发明另外一些实施例如图6所示，提供了一种视频代表帧提取装置100，包括：

候选帧提取模块110，用于获取待提取视频的候选帧集合C；

度量指标计算模块120，用于获取所述候选帧集合中各图像帧的度量指标，形成待提取视频的度量指标向量；

度量指标密度值计算模块130，用于根据所述度量指标的均值、方差，计算各图像帧的度量指标的密度值；

图像质量评分获取模块140，用于根据各图像帧的度量指标的密度值获取各图像帧的图像质量评分；

最优化模块150，用于根据各图像帧的图像质量评分、各图像帧之间的相似度和各图像帧之间的时间位置惩罚值，从所述候选帧集合中选出代表帧集合Z使得，∑_z∈ZScore(z)-α∑_i，j∈ZSim(i，j)-β∑_i，j∈ZPos(i，j)最大，其中Score(z)代表图像质量评分，Sim(i，j)代表图像帧之间的相似度，Pos(i，j)代表图像帧之间的时间位置惩罚值，α，β分别为预设的相似度惩罚系数和时间位置惩罚系数。

上述各个模块的具体执行步骤在视频代表帧提取方法中对应的步骤中已进行详细叙述，在此不做过多赘述。

下面参考图7，其示出了适于用来实现本申请实施例的控制设备的计算机系统800的结构示意图。图7示出的控制设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向目标的程序设计语言—诸如Python、Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、分割单元、确定单元和选择单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取待处理绘本图像的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待提取视频的候选帧集合C；获取所述候选帧集合中各图像帧的度量指标，形成待提取视频的度量指标向量；根据所述度量指标的均值、方差，计算各图像帧的度量指标的密度值；根据各图像帧的度量指标的密度值获取各图像帧的图像质量评分；根据各图像帧的图像质量评分、各图像帧之间的相似度和各图像帧之间的时间位置惩罚值，从所述候选帧集合中选出代表帧集合Z使得，∑_z∈ZScore(z)-α∑_i，j∈ZSim(i，j)-β∑_i，j∈ZPos(i，j)最大，其中Score(z)代表图像质量评分，Sim(i，j)代表图像帧之间的相似度，Pos(i，j)代表图像帧之间的时间位置惩罚值，α，β分别为预设的相似度惩罚系数和时间位置惩罚系数。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种视频代表帧提取方法，其特征在于，包括如下步骤：

S110、获取待提取视频的候选帧集合C；

S120、获取所述候选帧集合中各图像帧的度量指标，形成待提取视频的度量指标向量；所述度量指标包括平均亮度、平均饱和度、平均梯度和色彩丰富度中的一个或多个；

步骤S130具体包括：

对度量指标密度值向量O^l，O^s，O^g，O^r，根据最大最小值归一化到[0，1]区间，获得为Y^l，Y^s，Y^g，Y^r，其中，Y^l代表归一化的平均亮度对应的密度向量，Y^s代表归一化的平均饱和度对应的密度向量，Y^g代表归一化的平均梯度对应的密度向量，Y^r代表归一化的色彩丰富度对应的密度向量；

步骤S140具体为：

通过如下公式获取图像质量评分Score，

Score(C)＝w^l·Y^l+w^s·Y^s+w^g·Y^g+w^r·Y^r，其中w^l，w^s，w^g，w^r为各分量的权重系数；

S150、根据各图像帧的图像质量评分、各图像帧之间的相似度和各图像帧之间的时间位置惩罚值，从所述候选帧集合中选出代表帧集合Z使得，∑_z∈ZScore(z)-α∑_i，j∈ZSim(i，j)-β∑_i，j∈ZPos(i，j)最大，其中Score(z)代表图像质量评分，Sim(i，j)代表图像帧之间的相似度，Pos(i，j)代表图像帧之间的时间位置惩罚值，α，β分别为预设的相似度惩罚系数和时间位置惩罚系数；

所述步骤S150具体包括：

S151、设定候选集合C^*＝C，当前代表帧集合为空集合，定义每个候选帧的增益函数Z⁺(i)：

S153、令所述代表帧集合Z^*＝k∪Z^*，候选集合C^*＝C^*-k；

S155、输出代表帧集合结果Z^*；

步骤S150中图像帧之间的时间位置惩罚值Pos(i，j)通过如下公式获取：其中，T代表待提取视频的总时长，t_i为取视频帧帧i在视频中的时间戳，t_j为取视频帧帧j在视频中的时间戳，K为代表帧集合中的代表帧数量目标值。

2.根据权利要求1所述的视频代表帧提取方法，其特征在于，所述步骤S120包括：

提取图像的亮度分量，然后求取均值，并根据灰度级归一化到区间[0，1]之间，获取所述图像帧的平均亮度；和/或，

提取图像的饱和度分量，然后求取均值并归一化到[0，1]之间，获取所述图像帧的平均饱和度；和/或，

利用Laplace算子计算梯度值，然后求均值并归一化到[0，1]之间，获取所述图像帧的平均梯度；和/或，

将整个色彩空间的在每个维度上进行分段区间划分，形成一个多维的网格；统计所述图像帧中的像素颜色落入到每个子区间中的数目，如果一个子区间中像素数目超过预设的阈值Tr，则认定所述图像帧包含了该子区间所代表的平均颜色；统计超过阈值Tr的子区间数目N_pass，设色彩空间的多维网格的总子区间数目为N_grid＝B³，则，色彩丰富度Colorful(·)＝N_pass/N_grid，其中每个颜色维度划分成B个区间。

3.一种视频代表帧提取装置，其特征在于，包括：

候选帧提取模块，用于获取待提取视频的候选帧集合C；

度量指标计算模块，用于获取所述候选帧集合中各图像帧的度量指标，形成待提取视频的度量指标向量；所述度量指标包括平均亮度、平均饱和度、平均梯度和色彩丰富度中的一个或多个；

度量指标密度值计算模块，用于根据所述度量指标的均值、方差，计算各图像帧的度量指标的密度值；具体包括：

x代表度量指标向量X中对应第i个图像帧的度量指标值，从而获取度量指标密度值向量O^l，O^s，O^g，O^r，其中，O^l代表平均亮度对应的密度向量，O^s代表平均饱和度对应的密度向量，Og代表平均梯度对应的密度向量，O^r代表色彩丰富度对应的密度向量；

图像质量评分获取模块，用于根据各图像帧的度量指标的密度值获取各图像帧的图像质量评分；具体为：

通过如下公式获取图像质量评分Score，

最优化模块，用于根据各图像帧的图像质量评分、各图像帧之间的相似度和各图像帧之间的时间位置惩罚值，从所述候选帧集合中选出代表帧集合Z使得，∑_z∈ZScore(z)-α∑_i，j∈ZSim(i，j)-β∑_i，j∈ZPos(i，j)最大，其中Score(z)代表图像质量评分，Sim(i，j)代表图像帧之间的相似度，Pos(i，j)代表图像帧之间的时间位置惩罚值，α，β分别为预设的相似度惩罚系数和时间位置惩罚系数；

具体包括：

(1)设定候选集合C^*＝C，当前代表帧集合为空集合，定义每个候选帧的增益函数Z⁺(i)：

(2)针对候选集合中的所有帧的增益函数值Z⁺，选取最大增益函数值对应的图像帧k；

(3)令所述代表帧集合Z^*＝k∪Z^*，候选集合C^*＝C^*-k；

(4)重复执行步骤(2)、(3)直到Z^*中的元素数目为K，K为代表帧集合Z中的代表帧数量目标值；

(5)输出代表帧集合结果Z^*；

所述图像帧之间的时间位置惩罚值Pos(i，j)通过如下公式获取：其中，T代表待提取视频的总时长，t_i为取视频帧帧i在视频中的时间戳，t_j为取视频帧帧j在视频中的时间戳，K为代表帧集合中的代表帧数量目标值。

4.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-2中任一所述的方法。

5.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-2中任一所述的方法。