CN110674673A

CN110674673A - 一种关键视频帧抽取方法、装置和存储介质

Info

Publication number: CN110674673A
Application number: CN201910697979.5A
Authority: CN
Inventors: 段运强; 井雅琪; 原春锋; 时磊; 李扬曦; 胡燕林; 郭承禹; 张翠; 佟玲玲; 段东圣; 任博雅; 谢程利; 刘雨帆; 张子琦; 胡卫明
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2020-01-10

Abstract

本发明提出了一种视频关键帧抽取方法、装置和存储介质，用以减少视频处理过程中的冗余信息，提高视频处理速度。所述视频关键帧抽取方法，包括：从待分析视频中提取I帧；针对提取的每一I帧，利用深度哈希网络确定其对应的深度哈希码，所述深度哈希网络为利用预先生成的图像样本对进行训练得到的；根据各I帧对应的深度哈希码，分别确定两两I帧深度哈希码之间的汉明距离；根据两两I帧深度哈希码之间的汉明距离，对提取的I帧进行聚类；针对每一聚类，分别确定该聚类中包含的每一I帧的信息熵；从每一聚类中，提取信息熵最大的I帧组成所述待分析视频的关键帧。

Description

一种关键视频帧抽取方法、装置和存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种关键视频帧抽取方法、装置和存储介质。

背景技术

在基于内容的视频标引和检索系统中，通常需要对大量视频进行处理。而视频是由连续的视频帧构成的，一段相邻的视频帧往往具有相同的语义信息，这些帧对于分析视频内容来说是冗余的，如果逐帧处理会带来巨大的计算量和噪声。通过分析确定视频中最具代表性的帧，从低层的感知描述到高层的语义描述，即可获得视频在每个含义层上的要点。因此，抽取视频关键帧是视频分析的关键步骤之一。

传统的视频关键帧抽取技术通常采用提取视频的I帧，I帧又称帧内编码帧，是一种自带全部信息的独立帧，无需参考其他图像便可独立进行解码，可以简单理解为一张静态画面。然而，如果视频中发生的动作形变较小，同样会发生I帧相近的现象，这种基于帧间形变的抽取技术有时很难抽取到体现视频内容差异性的视频关键帧。

由此可见，如何抽取关键视频帧，减少视频处理过程中的冗余信息，提高视频处理速度成为现有技术中亟待解决的技术问题之一。

发明内容

本发明要解决的技术问题是减少视频处理过程中的冗余信息，提高视频处理速度，提供一种视频关键帧抽取方法、装置和存储介质。

本发明采用的技术方案是提供一种视频关键帧抽取方法，所述视频关键帧抽取方法，包括：

从待分析视频中提取I帧；

针对提取的每一I帧，利用深度哈希网络确定其对应的深度哈希码，所述深度哈希网络为利用预先生成的图像样本对进行训练得到的；

根据各I帧对应的深度哈希码，分别确定两两I帧深度哈希码之间的汉明距离；

根据两两I帧之间深度哈希码的汉明距离，对提取的I帧进行聚类；

针对每一聚类，分别确定该聚类中包含的每一I帧的信息熵；

从每一聚类中，提取信息熵最大的I帧组成所述待分析视频的关键帧。

在一种可能的实施方式中，按照以下方法生成所述图像样本对：

获取图像样本，所述图像样本包括若干类别，每一类别包括若干图像；

针对每一类别包含的每一图像进行图像变换操作得到其对应的转换图像；

针对每一图像，确定该图像与其对应的任一转换图像组成图像正样本对；

确定该图像与其他类别中的任一图像或者该图像与其他类别图像对应的任一转换图像组成负图像样本对。

在一种可能的实施方式中，所述深度哈希网络包括特征学习网络和哈希函数学习网络，所述特征学习网络包括3个卷积层和1个全连接层，其中，每一卷积层后连接最大值池化层和Relu激活函数，第二个最大池池化层后连接局部响应归一化层；所述深度哈希网络利用L2范数作为正则项。

在一种可能的实施方式中，利用预先生成的图像样本对按照以下流程进行训练得到所述深度哈希网络：

针对提取的每一I帧，将所述图像样本对输入所述特征学习网络中获得图像特征；

将获得的图像特征输入所述哈希函数学习网络中得到所述图像样本对中每一图像样本对应的类二进制编码；

根据所述图像样本对中每一图像样本所对应的类二进制编码，利用预先定义的损失函数确定本次训练损失；

根据本次训练损失调整网络参数重新训练，直至深度哈希网络收敛。

在一种可能的实施方式中，利用深度哈希网络确定其对应的深度哈希码，具体包括：

利用深度哈希网络将所述I帧转换为类二进制编码；

将所述类二进制编码进行二值化处理得到所述I帧对应的深度哈希码。

在一种可能的实施方式中，根据两两I帧深度哈希码之间的汉明距离，对提取的I帧进行聚类，具体包括：

初始确定每一I帧为一个聚类；

针对每两个聚类，确定第一个聚类和第二个聚类中包含的I帧深度哈希码的平均汉明距离；

合并平均汉明距离最小的两个聚类；

返回执行针对每两个聚类，确定第一个聚类和第二个聚类中包含的I帧深度哈希码的平均汉明距离的步骤，直至聚类数量达到预设的目标聚类数量。

本发明还提供一种视频关键帧抽取装置，包括：

第一提取单元，用于从待分析视频中提取I帧作为I帧；

第一确定单元，用于针对提取的每一I帧，利用深度哈希网络确定其对应的深度哈希码，所述深度哈希网络为利用预先生成的图像样本对进行训练得到的；

第二确定单元，用于根据各I帧对应的深度哈希码，分别确定两两I帧深度哈希码之间的汉明距离；

聚类单元，用于根据两两I帧深度哈希码之间的汉明距离，对提取的I帧进行聚类；

第三确定单元，用于针对每一聚类，分别确定该聚类中包含的每一I帧的信息熵；

第二提取单元，用于从每一聚类中，提取信息熵最大的I帧组成所述待分析视频的关键帧。

在一种可能的实施方式中，本发明实施例提供的视频关键帧提取装置，还包括：

获取单元，用于获取图像样本，所述图像样本包括若干类别，每一类别包括若干图像；

图像变换单元，用于针对每一类别包含的每一图像进行图像变换操作得到其对应的转换图像；

第四确定单元，用于针对每一图像，确定该图像与其对应的任一转换图像组成图像正样本对；确定该图像与其他类别中的任一图像或者该图像与其他类别图像对应的任一转换图像组成负图像样本对。

在一种可能的实施方式中，所述深度哈希网络包括特征学习网络和哈希函数学习网络，所述特征学习网络包括3个卷积层和1个全连接层，其中，每一卷积层后连接最大值池化层和Relu激活函数，第二个最大池化层后连接局部响应归一化层；所述深度哈希网络利用L2范数作为正则项。

第一输入单元，用于将所述图像样本对输入所述特征学习网络中获得图像特征；

第二输入单元，用于将获得的图像特征输入所述哈希函数学习网络中得到所述图像样本对中每一图像样本对应的类二进制编码；

第五确定单元，用于根据所述图像样本对中每一图像样本所对应的类二进制编码，利用预先定义的损失函数确定本次训练损失；

调整单元，用于根据本次训练损失调整网络参数重新训练，直至深度哈希网络收敛。

在一种可能的实施方式中，所述第一确定单元，具体用于针对提取的每一I帧，利用深度哈希网络将所述I帧转换为类二进制编码；将所述类二进制编码进行二值化处理得到所述I帧对应的深度哈希码。

在一种可能的实施方式中，所述聚类单元，具体用于确定每一I帧为一个聚类；针对每两个聚类，确定第一个聚类和第二个聚类中包含的I帧深度哈希码的平均汉明距离；合并平均汉明距离最小的两个聚类；返回执行针对每两个聚类，确定第一个聚类和第二个聚类中包含的I帧深度哈希码的平均汉明距离的步骤，直至聚类数量达到预设的目标聚类数量。

本发明还提供一种视频处理装置，所述视频处理装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任一视频关键帧抽取方法的步骤。

本发明还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一视频关键帧抽取方法的步骤。

采用上述技术方案，本发明至少具有下列优点：

本发明所述的视频关键帧抽取方法、装置和存储介质，在提取出的I帧基础上，利用深度哈希网络确定I帧对应的深度哈希码，基于获得的深度哈希码确定I帧深度哈希码之间的汉明距离，并根据汉明距离对I帧进行聚类，从属于同一类的I帧中选择信息熵最高的一帧I帧组成视频关键帧，由此，可以剔除I帧中相似的视频帧，从而减少视频处理过程中的冗余信息，提高视频处理的速度，节约处理资源的开销。

附图说明

图1为本发明实施例的深度哈希网络结构示意图；

图2为本发明实施例的生成图像样本对的方法流程图；

图3为本发明实施例的深度哈希网络训练流程图；

图4为本发明实施例的视频关键帧抽取方法流程图；

图5为本发明实施例的聚类流程图；

图6为本发明实施例的视频关键帧抽取装置结构示意图；

图7为本发明实施例的视频处理装置结构示意图。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效，以下结合附图及较佳实施例，对本发明进行详细说明如后。

视频是由一系列的视频帧组成的，视频帧中包含有I帧、B帧和P帧三类，其中，I帧描述了图像背景和运动主体的详细信息，P帧和B帧依赖于I帧的信息，解码时仅用I帧的数据就可重构完整图像。因此，本发明对视频解码后，直接抽取视频中的I帧作为初始关键帧。由于初始关键帧(I帧)是根据视频帧间形变产生的，因此仍然存在大量语义信息相关的冗余帧，这些冗余帧会给视频处理过程带来额外的计算量甚至噪声。有鉴于此，本发明实施例提供了一种基于深度哈希网络，将初始关键帧从RGB(红绿蓝)色彩空间转换到具有高层语义信息的二进制编码空间(本发明实施例中，也称为哈希编码空间)。

为了提高视频帧RGB色彩空间到二进制编码空间转换的准确性，本发明实施例中，提供了一种深度哈希网络结构，如图1所示，本发明实施例提供的深度哈希网络包括特征学习网络和哈希函数学习网络，特征学习网络是基于权重共享(Weight Sharing)的孪生卷积神经网络，包括3个卷积层(Conv)和1个全连接层(FC1)，其中，每一卷积层后连接最大值池化层(Pool)和Relu激活函数，第二个最大池池化层后连接局部响应归一化层(LRN)；需要说明的是，全连接层FC1后续连接Relu激活函数。应当理解，上述网络结构仅为本发明的一种实施方式，具体实施时，深度哈希网络结构不限于此。

特征学习网络以一对图像作为输入，利用卷积神经网络作为孪生网络的分支，取最后的全连接层的输出作为图像的特征表示；哈希函数学习网络时学习一种RGB空间到二进制哈希编码的映射，使得具有相似语义信息的关键帧具有相似的哈希编码。

深度哈希网络训练的关键步骤之一是如何确定损失函数，合适的损失函数能够保证训练得到的深度哈希网络输出结果更加准确。

假设一对图像(I1,I2)，其类二进制编码输出为(b1,b2)，标签y＝1表示图像样本对中的两张图像相似，y＝0表示图像样本对中的图像不相似，本发明实施例中，将哈希深度网络损失函数定义为如下：

其中D_h(b₁,b₂)表示深度哈希码的汉明距离，margin是预先设置的阈值。当y＝1时，损失函数只剩下D_h(b₁,b₂)，即相似的样本对在深度哈希码空间的汉明距离较大，说明当前的模型参数不好，损失值加大。而当y＝0时，即样本对并不相似时，其在深度哈希码空间的汉明距离反而小时，损失值会变大。

由于公式(1)中的约束是二值的，即离散的，不可导。所以在训练时难以反向传播误差。因此需要对公式(1)进行松弛，变成可导易于计算。常用的松弛方法是利用sigmoid或tanh函数来逼近阈值，然而使用这种非线性函数将不可避免的减慢甚至限制网络的收敛。因此为了克服这种缺陷，本发明实施例中，使用L2范数正则化项来代替二进制约束，使得深度哈希网络输出值接近于所需的离散值(+1,-1)。具体公式如下：

其中1表示所有元素全为1的向量，‖.‖₂表示L2范数，|.|是取绝对值操作，α表示正则化项的加权参数。

综上，本发明实施例中，在损失函数上采用二范数正则项作为约束，使得深度哈希网络的输出接近期望的离散值，从而便于量化成深度哈希码。

为了为哈希深度网络训练提供足够多的数据样本，本发明实施例还提供了一种生成图像样本对的方法，如图2所示，可以包括以下步骤：

S21、获取图像样本，该图像样本包括若干类别，每一类别包括若干图像。

具体实施时，可以在公开数据集，例如，ImageNet上进行离线采样，ImageNet数据集包含1000个类别，每个类别有1000张图像，通常来说，相同类别的图像具有相似的语义信息。

S22、针对每一类别包含的每一图像进行图像变换操作得到其对应的转换图像。

具体地，对于每个类别，选取一张图像，对其进行包含但不限于平移、旋转、尺度放缩、高斯模糊在内的图像变换操作，得到其对应的转换图像。

S23、针对每一图像，确定该图像与其对应的任一转换图像组成图像正样本对，确定该图像与其他类别中的任一图像或者该图像与其他类别图像对应的任一转换图像组成负图像样本对。

针对任一图像，将该图像和转换图像组成的图像对作为正图样样本对，即具有相同或者相似语义信息的样本对，再从其他类别中随机选取若干张图像或者转换图像，与该图像组成样本对作为负图像样本对。这样，可以构成各10万个正负图像样本对。

基于上述得到的正负图像样本对可以对深度哈希网络进行训练，具体实施时，可以按照图3所示的步骤执行：

S31、将图像样本对输入特征学习网络中获得图像特征。

具体实施中，将上述获得的图像样本分批次输入到特征学习网络中，根据前向传播获得图像特征。

S32、将获得的图像特征输入哈希函数学习网络中得到所述图像样本对中每一图像样本对应的类二进制编码。

本步骤中，将步骤S31输出的图像特征输入哈希函数学习网络中，得到每一图像样本对应的类二进制编码{+1,-1}^k。

S33、根据该图像样本对中每一图像样本所对应的类二进制编码，利用预先定义的损失函数确定本次训练损失。

在上述损失值函数(2)的基础上，利用小批量梯度下降法对网络进行了反向传播，由于绝对值运算在某些点上是不可微的，因此计算的是损失值函数中每一子项的梯度，公式(2)中损失函数三项子梯度计算公式如下：

其中，i,j表示在每一孪生分支网络中输入图像的图像标识。

S34、根据本次训练损失调整网络参数重新训练，直至深度哈希网络收敛。

重复上述过程中的前向传播和反向传播，对深度哈希网络进行训练直至网络收敛，停止训练。具体实施时，可以预先设定迭代次数，迭代次数达到设定值时，确定深度哈希网络收敛，或者，也可以根据上述定义的损失函数确定出的损失值不大于设定的损失值阈值时，确定网络收敛，本发明实施例对此不进行限定。

通过上述训练得到的深度哈希网络，使得I帧通过该网络只进行前向传播，转换为类二进制编码，将得到的类二进制编码进行二值化处理得到所述I帧对应的深度哈希码，例如，将得到的类二进制编码经过sgn(·)函数特征二值化，即得到每个初始关键帧(即I帧)的深度哈希码。

基于上述训练得到的深度哈希网络，本发明实施例提供了一种视频关键帧抽取方法，如图4所示，包括以下步骤：

S41、从待分析视频中提取I帧。

本步骤中，对于待分析视频，首先对待分析视频进行解码。具体地，可以利用视频解码工具分析待分析视频的编码方式等相关信息，然后选取与之相对应的解码器；根据I帧、P帧和B帧的特点：I帧是P帧和B帧的参考帧，P帧是I帧后面相隔1～2帧的编码帧，B帧由前面的I帧或P帧以及后面的P帧来进行预测的。对于任一视频帧，如果解码成功，则可认为是I帧或者P帧，再利用解码器的关键帧函数判断是否是I帧，解码不成功则为B帧。将I帧保留作为初始关键帧，其余P帧和B帧则抛弃。假设对于待分析视频V，通过解码得到n个I帧的初始关键帧集合为F＝{f_1,f_2,…,f_n}，该集合将作为后续步骤的待处理帧集合。

S42、针对提取的每一I帧，利用预先训练得到的深度哈希网络确定其对应的深度哈希码。

本步骤中，利用上述训练得到的深度哈希网络确定每一I帧对应的类二进制编码，然后将得到的类二进制编码二值化为深度哈希码。

S43、根据各I帧对应的深度哈希码，分别确定两两I帧深度哈希码之间的汉明距离。

S44、根据两两I帧深度哈希码之间的汉明距离，对提取的I帧进行聚类。

本步骤中，可以按照图5所示的步骤进行聚类：

S151、初始确定每一I帧为一个聚类。

初始时，将每个I帧视为一个单一的聚类。

S152、针对每两个聚类，确定第一个聚类和第二个聚类中包含的I帧深度哈希码的平均汉明距离。

如果一个聚类中包含有多个数据点，在计算其与另一聚类之间的距离时，可以根据该聚类中每一数据点与另一聚类中每一数据点之间的汉明距离的平均值作为两个聚类之间的汉明距离，例如，假设聚类A包括两个数据{I1，I2}，聚类B包括两个数据{I3，I4}，I1和I3之间的汉明距离为D13，I2和I3之间的汉明距离为I23，I1和I4之间的汉明距离为D14，I2和I4之间的汉明距离为I24，则聚类A和B之间的距离可以按照以下方法计算：(I13+I23+I14+I24)/4。

S153、合并平均汉明距离最小的两个聚类。

初始时，根据步骤S43中确定出的两两I帧之间的汉明距离，首先合并汉明距离最近的两个I帧。以提取的I帧有10个为例，经过第一次聚类，可以将提取的I帧聚类为9个聚类。依次类推，每次合并两个聚类，直至聚类数量达到预先设定的数量为止。

根据预先设定的聚类数量，本例中以设定的聚类数量为6为例，第一次聚类后，继续进行第二次聚类，直至将所有的I帧聚为6类为止。

S154、判断是否达到预先设定的聚类数量，如果是，流程结束，如果否，返回执行步骤S152。

经过聚类步骤，可以将初始提取的I帧将哈希编码空间距离较近的I帧聚为一类，保证了较大的类间距离和较小的类内距离。相同聚类的帧具有相似的高级语义信息，同时，还可以根据提取的I帧的数量自适应调整聚类数量，其对于距离度量标准的选择并不敏感。

S45、针对每一聚类，分别确定该聚类中包含的每一I帧的信息熵。

经过步骤S44聚类后的I帧，由于各类别内的I帧具有相似的语义信息，可以认为这些I帧是冗余的，即对于每一聚类，只需要抽取其中一帧作为代表该聚类的关键帧即可。通常来说，图像信息的丰富程度与后续视频处理的效果成正相关，信息熵可以用来衡量一个图像内容的丰富程度，信息熵越大，图像的纹理、色彩越丰富。因此，本发明实施例中，利用信息熵来衡量一个视频帧中信息的丰富程度。各类别中的关键帧按照信息熵进行排序，选取排序最高的帧作为该类别的代表帧，也即最终抽取到的关键帧。

具体地，根据上述S44聚类后的结果，对每个聚类中的每一帧图像进行灰度变换，得到每个图像的灰度图。以其中一帧图像为例，统计其灰度直方图，计算出每个灰度值的出现概率p_i，基于每个灰度值的出现概率，根据如下公式确定该张图像的信息熵：

其中，n表示灰度值的数量。确定出的信息熵衡量了该图像所富含的信息量，依次对每个聚类中的每一帧图像进行相同的操作，即可确定出所有图像的信息熵。

S46、从每一聚类中，提取信息熵最大的I帧组成所述待分析视频的关键帧。

本步骤中，抽取每一聚类中信息熵最大的I帧。从每个聚类中分别选择出信息熵最大的一帧图像，组成最终的关键帧。

本发明实施例提供的视频关键帧抽取方法，通过设计深度哈希网络，可以有效地提取视频关键帧的高层语义信息，使得最终抽取到的关键帧不但从底层视觉方面不同，而且在高层语义方面不相似。减少冗余帧后，将大大降低后续视频处理的计算量，从而减少视频处理过程中的冗余信息，提高视频处理的速度，节约处理资源的开销。

本发明实施例通过设计一个可学习的哈希函数学习网络，构建了一种从RBG空间到二进制编码(哈希编码)空间的映射，使得语义越相似的关键帧在二进制空间距离越近。哈希函数对特征的二值化，可以有效降低度量两个特征距离的计算量，从而减少匹配的时间，达到实时匹配的运算性能。

另外，本发明实施例通过聚类和基于信息熵的图像信息度量技术，可以自适应地将具有相似语义信息的帧聚为一类，进一步从类内相似帧中抽取信息量最大的帧作为最终获取到的关键帧，这种方法不受簇数量的限制，对距离度量标准的选择也不敏感，具有很好的鲁棒性。

基于同一技术构思，本发明实施例还提供了一种视频关键帧抽取装置，如图6所示，包括：

第一提取单元61，用于从待分析视频中提取I帧作为I帧；

第一确定单元62，用于针对提取的每一I帧，利用深度哈希网络确定其对应的深度哈希码，所述深度哈希网络为利用预先生成的图像样本对进行训练得到的；

第二确定单元63，用于根据各I帧对应的深度哈希码，分别确定两两I帧深度哈希码之间的汉明距离；

聚类单元64，用于根据两两I帧深度哈希码之间的汉明距离，对提取的I帧进行聚类；

第三确定单元65，用于针对每一聚类，分别确定该聚类中包含的每一I帧的信息熵；

第二提取单元66，用于从每一聚类中，提取信息熵最大的I帧组成所述待分析视频的关键帧。

在一种可能的实施方式中，所述聚类单元，具体用于初始确定每一I帧为一个聚类；针对每两个聚类，确定第一个聚类和第二个聚类中包含的I帧深度哈希码的平均汉明距离；合并平均汉明距离最小的两个聚类；返回执行针对每两个聚类，确定第一个聚类和第二个聚类中包含的I帧深度哈希码的平均汉明距离的步骤，直至聚类数量达到预设的目标聚类数量。

需要说明的是，本发明实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在介绍了本发明示例性实施方式的视频关键帧抽取方法和装置之后，接下来，介绍根据本发明的另一示例性实施方式的视频处理装置。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的视频处理装置可以至少包括至少一个处理器、以及至少一个存储器。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本说明书上述描述的根据本发明各种示例性实施方式的视频关键帧抽取方法中的步骤。例如，所述处理器可以执行如图4中所示的步骤S41、从待分析视频中提取I帧，和步骤S42、针对提取的每一I帧，利用预先训练得到的深度哈希网络确定其对应的深度哈希码；以及步骤S43、根据各I帧对应的深度哈希码，分别确定两两I帧深度哈希码之间的汉明距离；步骤S44、根据两两I帧深度哈希码之间的汉明距离，对提取的I帧进行聚类；步骤S45、针对每一聚类，分别确定该聚类中包含的每一I帧的信息熵；以及步骤S46、从每一聚类中，提取信息熵最大的I帧组成所述待分析视频的关键帧。

下面参照图7来描述根据本发明的这种实施方式的视频处理装置70。图7显示的视频处理装置70仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，视频处理装置70以通用计算设备的形式表现。视频处理装置70的组件可以包括但不限于：上述至少一个处理器71、上述至少一个存储器72、连接不同系统组件(包括存储器72和处理器71)的总线73。

总线73表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器72可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)721和/或高速缓存存储器722，还可以进一步包括只读存储器(ROM)723。

存储器72还可以包括具有一组(至少一个)程序模块724的程序/实用工具725，这样的程序模块724包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

视频处理装置70也可以与一个或多个外部设备74(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与视频处理装置70交互的设备通信，和/或与使得该视频处理装置70能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口75进行。并且，视频处理装置70还可以通过网络适配器76与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器76通过总线73与用于视频处理装置70的其它模块通信。应当理解，尽管图中未示出，可以结合视频处理装置70使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本发明提供的视频关键帧抽取方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的视频关键帧抽取方法中的步骤，例如，所述计算机设备可以执行如图4中所示的步骤S41、从待分析视频中提取I帧，和步骤S42、针对提取的每一I帧，利用预先训练得到的深度哈希网络确定其对应的深度哈希码；以及步骤S43、根据各I帧对应的深度哈希码，分别确定两两I帧深度哈希码之间的汉明距离；步骤S44、根据两两I帧深度哈希码之间的汉明距离，对提取的I帧进行聚类；步骤S45、针对每一聚类，分别确定该聚类中包含的每一I帧的信息熵；以及步骤S46、从每一聚类中，提取信息熵最大的I帧组成所述待分析视频的关键帧。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本发明的实施方式的用于视频关键帧抽取的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示仅是提供参考与说明之用，并非用来对本发明加以限制。

Claims

1.一种视频关键帧抽取方法，其特征在于，包括：

从待分析视频中提取I帧；

根据两两I帧深度哈希码之间的汉明距离，对提取的I帧进行聚类；

针对每一聚类，分别确定该聚类中包含的每一I帧的信息熵；

2.根据权利要求1所述的方法，其特征在于，按照以下方法生成所述图像样本对：

确定该图像与其他类别中的任一图像或者该图像与其他类别图像对应的任一转换图像组成图像负样本对。

3.根据权利要求1或2所述的方法，其特征在于，所述深度哈希网络包括特征学习网络和哈希函数学习网络，所述特征学习网络包括3个卷积层和1个全连接层，其中，每一卷积层后连接最大值池化层和Relu激活函数，第二个最大池化层后连接局部响应归一化层；所述深度哈希网络利用L2范数作为正则项。

4.根据权利要求3所述的方法，其特征在于，利用预先生成的图像样本对按照以下流程进行训练得到所述深度哈希网络：

将所述图像样本对输入所述特征学习网络中获得图像特征；

5.根据权利要求4所述的方法，其特征在于，针对提取的每一I帧，利用深度哈希网络确定其对应的深度哈希码，具体包括：

针对提取的每一I帧，利用深度哈希网络将所述I帧转换为类二进制编码；

6.根据权利要求1所述的方法，其特征在于，根据两两I帧深度哈希码之间的汉明距离，对提取的I帧进行聚类，具体包括：

初始确定每一I帧为一个聚类；

合并平均汉明距离最小的两个聚类；

7.一种视频关键帧抽取装置，其特征在于，包括：

第一提取单元，用于从待分析视频中提取I帧；

8.根据权利要求7所述的装置，其特征在于，还包括：

9.一种视频处理装置，其特征在于，所述视频处理装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述视频关键帧抽取方法的步骤。

10.一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的视频关键帧抽取方法的步骤。