CN111160191B

CN111160191B - 一种视频关键帧提取方法、装置及存储介质

Info

Publication number: CN111160191B
Application number: CN201911333841.3A
Authority: CN
Inventors: 梁涛; 张晗; 马连洋; 衡阵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2024-05-14
Anticipated expiration: 2039-12-23
Also published as: CN111160191A

Abstract

本发明涉及计算机技术领域，尤其涉及人工智能‑计算机视觉技术，提供了一种视频关键帧提取方法、装置及存储介质。该方法通过构建机器学习模型，基于样本视频、对应的关键帧序列以及样本视频内容描述文本进行机器学习训练得到关键帧提取模型；在使用该关键帧提取模型处理待处理视频过程中，挖掘待处理视频的视频内容描述文本与候选帧集之间的关联获得候选帧权重分布，利用候选帧权重分布对从候选帧集中提取关键帧进行信息指导，实现更精确的提取视频的关键帧。

Description

一种视频关键帧提取方法、装置及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频关键帧提取方法、装置及存储介质。

背景技术

目前常用的视频关键帧提取方案是基于传统的统计学方法，即按帧内容差异对视频进行场景切分得到视频候选帧，进而使用统计学方法对这些候选帧提取低级视觉特征(sift、颜色直方图等)，最后基于这些低级视觉特征提取最后的视频关键帧。但是此类方法使用的只是帧的低级视觉特征，并不能很好的反应视频帧的真实内容信息，不能保证所提取的帧就是关键帧。

发明内容

本发明提供了一种视频关键帧提取方法、装置及存储介质，使用本发明进行视频关键帧提取能够提高关键帧的提取效率和准确度。

一方面，本发明提供一种视频关键帧提取方法，包括：

获取待处理视频和与该待处理视频对应的视频内容描述文本；

将所述待处理视频和所述视频内容描述文本输入已训练的关键帧提取模型，输出得到所述待处理视频的各候选帧为关键帧的概率；

基于各候选帧为关键帧的概率提取所述待处理视频的关键帧；

其中，所述关键帧提取模型是基于样本视频、对应的关键帧序列以及样本视频内容描述文本进行机器学习训练得到的。

另一方面，本发明提供视频关键帧提取装置，包括：

获取模块，用于获取待处理视频和与该待处理视频对应的视频内容描述文本；

处理模块，用于将所述待处理视频和所述视频内容描述文本输入已训练的关键帧提取模型，输出得到所述待处理视频的各候选帧为关键帧的概率；

提取模块，用于基于各候选帧为关键帧的概率提取所述待处理视频的关键帧；

优选地，所述关键帧提取模型通过以下方法训练得到：

获取训练样本，所述训练样本包括样本视频、对应的关键帧序列以及样本视频内容描述文本；

构建机器学习模型，所述机器学习模型包括第一初始深度学习模型、第二初始深度学习模型、第三初始深度学习模型和第四初始深度学习模型，所述第三初始深度学习模型的输入是根据所述第一初始深度学习模型的输出和所述第二初始深度学习模型的输出获得的，所述第四初始深度学习模型的输入是根据所述第一初始深度学习模型的输出和所述第三初始深度学习模型的输出获得的；

将所述样本视频和所述样本视频内容描述文本输入所述机器学习模型进行关键帧识别训练，得到所述样本视频的关键帧预测结果；

将所述关键帧预测结果与所述样本视频对应的关键帧序列进行对比，计算得到损失值；

根据所述损失值调整所述机器学习模型中第一初始深度学习模型、第二初始深度学习模型、第三初始深度学习模型和第四初始深度学习模型的参数值，直至所确定的损失值达到训练停止条件时，将所述第一初始深度学习模型作为帧特征提取器、所述第二初始深度学习模型作为词特征提取器、所述第三初始深度学习模型作为权重计算模型、将所述第四初始深度学习模型作为概率计算模型，得到所述关键帧提取模型。

所述处理模块还包括：

候选帧集特征获取单元，用于对所述待处理视频进行分析处理，得到所述待处理视频的候选帧集的候选帧集特征；

分词特征获取单元，用于对所述视频内容描述文本进行分析处理，得到所述视频内容描述文本的所有分词的分词特征；

关系特征确定单元，用于基于所述候选帧集特征和所述分词特征，确定表征各候选帧与各分词之间关联性的关系特征；

候选帧权重分布确定单元，用于将所述关系特征中的各分词还原得到视频内容描述文本，根据各候选帧与还原得到的视频描述文本中每个分词的关联性，确定表征各候选帧与所述视频内容描述文本之间相关度的候选帧权重分布；

概率计算单元，用于根据所述候选帧集特征和所述候选帧权重分布，计算所述候选帧集中各候选帧为关键帧的概率。

优选的，所述候选帧集特征获取单元还用于：对所述待处理视频进行抽帧处理，得到所述待处理视频的候选帧集；将所述候选帧集的所有候选帧输入帧特征提取器，利用所述帧特征提取器提取所述候选帧集中各候选帧的固定维度特征向量，将提取的所有候选帧的特征向量组合形成帧向量矩阵，输出所述帧向量矩阵；将所述帧向量矩阵作为所述候选帧集特征。

所述分词特征获取单元还用于：对所述视频内容描述文本进行分词处理，得到所述视频内容描述文本的分词序列；将所述分词序列中所有分词输入词特征提取器，利用所述词特征提取器提取所述分词序列中各分词的固定维度特征向量，将提取的所有分词的特征向量按照分词序列组合形成词向量矩阵，输出所述词向量矩阵；将所述词向量矩阵作为所述分词特征。

所述关系特征确定单元还用于：将对应所述候选帧集特征的帧向量矩阵和对应所述分词特征的词向量矩阵相乘，得到各分词的特征向量与各候选帧的特征向量按照所述分词序列组成的关系向量矩阵；将所述关系向量矩阵作为所述关系特征。

所述候选帧权重分布确定单元还用于：将所述关系特征输入权重计算模型，利用权重计算模型将所述关系特征中的各分词按照所述分词序列还原得到视频内容描述文本，根据各候选帧与还原得到的视频描述文本中每个分词的关联性，计算各候选帧的特征向量与还原得到的所述视频内容描述文本之间的关联度，输出表征各候选帧与所述视频内容描述文本之间相关度的N维向量，N的取值与所述候选帧集中候选帧的数量一致；将输出的所述向量作为所述候选帧权重分布。

所述概率计算单元还用于：根据所述候选帧权重分布对所述候选帧集特征进行加权操作，得到所述候选帧集的预处理特征向量；将所述预处理特征向量输入概率计算模型，通过所述概率计算模型的全连接层对所述预处理特征向量进行非线性变换并输出结果；通过所述概率计算模型的softmax层将所述全连接层的输出结果转化为所述候选帧集中各候选帧为关键帧的概率。

另一方面，本发明提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的视频关键帧提取方法。

另一方面，本发明提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的视频关键帧提取方法。

本发明提供的一种视频关键帧提取方法、装置及存储介质，具有如下有益效果：

本发明方案构建机器学习模型，基于样本视频、对应的关键帧序列以及样本视频内容描述文本进行机器学习训练得到关键帧提取模型；在使用该关键帧提取模型处理待处理视频过程中，通过挖掘待处理视频的视频内容描述文本与候选帧集之间的关联获得候选帧权重分布，候选帧权重分布是表征候选帧与描述文本关联性的高级视觉特征，相比于传统的基于统计学方法获取低级视觉特征进行关键帧提取的方式，利用候选帧权重分布对从候选帧集中提取关键帧进行信息指导，能够更精确的提取视频的关键帧。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的一种视频关键帧提取方法的实施环境示意图；

图2是本发明实施例提供的视频关键帧提取方案的流程示意图；

图3是本发明实施例提供的训练视频关键帧提取模型的方法的流程示意图；

图4是本发明实施例提供的视频关键帧提取模型的数据形式结构；

图5是本发明实施例提供的一种视频关键帧提取方法的流程示意图；

图6是本发明实施例提供的视频关键帧提取模型对输入数据的处理过程；

图7是本发明实施例提供的基于候选帧权重分布计算候选帧为关键帧的概率的方法流程图；

图8是本发明实施例提供的利用视频关键帧提取模型进行数据处理的算法示意图；

图9是本发明实施例提供的构建候选帧权重分布的方法的流程示意图；

图10是本发明实施例提供的基于候选帧权重分布计算候选帧为关键帧的概率的流程示意图；

图11是本发明实施例提供的全连接层的具体操作的示意图；

图12是本发明实施例提供的视频关键帧提取装置的结构示意图；

图13是本发明实施例提供的一种视频关键帧提取方法的服务器的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于说明本发明实施例中的方法的优势，在本发明实施例的技术方案详述伊始，首先对现有技术的相关内容进行分析：

对于视频关键帧提取，传统做法是：按帧内容差异对视频进行场景切分得到视频候选帧，然后使用统计学方法对候选帧提取低级视觉特征，再基于低级视觉特征提取视频关键帧。此类方法使用帧的低级视觉特征，不能较好反应视频帧的真实内容信息，且在关键帧提取中由于没有指导信息故不能保证所提取的帧就是关键帧。

鉴于现有技术的不足，本发明实施例提供一种视频关键帧提取方案，使用视频内容描述文本作为视频的弱标签，并采用深度学习方法在模型学习过程中将该弱标签作为辅助特征信息产生视频候选帧集的候选帧权重分布，从而能够指导模型更精确的抽取视频关键帧。

下面结合附图对本发明实施例中的技术方案进行清楚、完整的描述。

图1是本发明实施例提供的一种视频关键帧提取方法的实施环境示意图；请参考图1，该实施环境包括：客户端01、服务器03。

客户端01可以包括：智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端等类型的实体设备，也可以包括运行于实体设备中的软体，例如具有视频关键帧提取功能的应用程序等。所述客户端01可以基于浏览器/服务器模式(Browser/Server，B/S)或客户端/服务器模式(Client/Server，C/S)与所述服务器03通信连接。

所述客户端01可以向服务器03发送待处理视频数据，所述待处理视频数据包括待处理视频和与该待处理视频对应的视频内容描述文本，所述服务器03可以将所述待处理视频数据输入已训练的关键帧提取模型，输出得到所述待处理视频的各候选帧为关键帧的概率，基于各候选帧为关键帧的概率提取所述待处理视频的关键帧，以及将所述待处理视频的关键帧传输至客户端01。在一个优选的实施例中，所述服务器03还可以基于样本视频、对应的关键帧序列以及样本视频内容描述文本进行机器学习以获得关键帧提取模型。

所述服务器03可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。

本发明实施例提供的视频关键帧提取模型可以包括帧特征提取器、词特征提取器、权重计算模型以及概率计算模型，其中，所述权重计算模型的输入是根据帧特征提取器的输出和词特征提取器的输出获得的，所述概率计算模型的输入是根据所述帧特征提取器的输出和所述权重计算模型的输出获得的。

图2是本发明实施例提供的视频关键帧提取方案的流程示意图。请参见图2，本发明的视频关键帧提取包含两部分，分为模型训练部分和模型应用部分。模型训练部分主要是基于训练样本(样本视频、对应的关键帧序列以及样本视频内容描述文本)训练机器学习模型，得到视频关键帧提取模型；模型应用部分主要是将待处理视频数据(待处理视频和与该待处理视频对应的视频内容描述文本)输入关键帧提取模型，输出得到各候选帧为关键帧的概率，之后可以基于各候选帧为关键帧的概率确定关键帧。以下分别就模型训练部分和模型应用部分进行展开说明。

图3是本发明实施例提供的训练视频关键帧提取模型的方法的流程示意图；该流程可以由图1所示的服务器执行实现，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。请参见图3，本发明实施例提供的训练视频关键帧提取模型的方法包括：

S301：获取训练样本，所述训练样本包括样本视频、对应的关键帧序列以及样本视频内容描述文本。

S303：构建机器学习模型，所述机器学习模型包括第一初始深度学习模型、第二初始深度学习模型、第三初始深度学习模型和第四初始深度学习模型，所述第三初始深度学习模型的输入是根据所述第一初始深度学习模型的输出和所述第二初始深度学习模型的输出获得的，所述第四初始深度学习模型的输入是根据所述第一初始深度学习模型的输出和所述第三初始深度学习模型的输出获得的。

在一个可行的实施例中，所述第一初始深度学习模型可以是CNN(ConvolutionalNeural Networks，卷积神经网络)，所述第二初始深度学习模型可以是Bi-LSTM(Bi-deractional Long Short-Term Memory，双向长短期记忆网络)，所述第三初始深度学习模型可以是LSTM(Long Short-Term Memory，长短期记忆网络)，所述第四初始深度学习模型可以包括FC层(Full-connected layer，全连接层)和softmax(逻辑回归模型)层，FC层的输出是softmax层的输入。

S305：将所述样本视频和所述样本视频内容描述文本输入所述机器学习模型进行关键帧识别训练，得到所述样本视频的关键帧预测结果。

在一个可行的实施例中，步骤S305可以包括：

(1)对样本视频进行抽帧处理，得到样本视频的各候选帧，将各候选帧组成样本视频的候选帧集；将样本视频候的选帧集中全部的候选帧输入第一初始深度学习模型，利用第一初始深度学习模型提取样本视频候选帧集中各候选帧的固定维度特征向量，将提取的所有候选帧的特征向量组合形成样本视频的帧向量矩阵，输出所述样本视频的帧向量矩阵。

(2)对样本视频内容描述文本进行分词处理，得到样本视频内容描述文本的样本分词序列；将样本视频内容描述文本的样本分词序列中的全部分词输入第二初始深度学习模型，利用第二初始深度学习模型提取样本分词序列中各分词的固定维度特征向量，将提取的所有分词的特征向量按照样本分词序列组合形成样本视频内容描述文本的词向量矩阵并输出。

(3)将所述样本视频的帧向量矩阵和样本视频内容描述文本的词向量矩阵相乘，得到样本视频内容描述文本各分词的特征向量与样本视频各候选帧的特征向量按照样本分词序列组成的关系向量矩阵；

(4)将步骤(3)得到的关系向量矩阵输入第三初始深度学习模型，利用第三初始深度学习模型计算样本视频各候选帧的特征向量与各分词按照样本分词序列还原得到的样本视频内容描述文本之间的关联度，输出表征样本视频各候选帧与样本视频内容描述文本之间相关度的N维向量，其中，N的取值与样本视频候的候选帧集中候选帧的数量一致。

(5)根据步骤(4)中得到的N维向量对样本视频的帧向量矩阵进行加权操作，得到样本视频候选帧集的预处理特征向量；将所述预处理特征向量输入第四初始深度学习模型，通过第四初始深度学习模型的FC层对样本视频候选帧集的预处理特征向量进行非线性变换并输出结果，FC层的输出结果传入softmax层，softmax层将FC层的输出结果转化为样本视频候选帧集中各候选帧为关键帧的概率。

可以对样本视频候选帧集中各候选帧为关键帧的概率进行由高至低排序，提取排序在前的W个候选帧作为提取的关键帧序列，将提取的关键帧序列作为所述样本视频的关键帧预测结果，其中，W的取值与所述样本视频对应的关键帧序列中关键帧的个数一致。

S307：将所述关键帧预测结果与所述样本视频对应的关键帧序列进行对比，计算得到损失值。

通过构建损失函数，基于损失函数计算关键帧预测结果与所述样本视频对应的关键帧序列之间的损失值。

S309：根据所述损失值调整所述机器学习模型中第一初始深度学习模型、第二初始深度学习模型、第三初始深度学习模型和第四初始深度学习模型的参数值，直至所确定的损失值达到训练停止条件时，将所述第一初始深度学习模型作为帧特征提取器、所述第二初始深度学习模型作为词特征提取器、所述第三初始深度学习模型作为权重计算模型、将所述第四初始深度学习模型作为概率计算模型，得到所述关键帧提取模型。

在本实施例中，可以基于损失值，采用梯度下降法更新第一初始深度学习模型、第二初始深度学习模型、第三初始深度学习模型和第四初始深度学习模型对应的参数，使得更新参数后得出的样本视频的关键帧预测结果与样本视频对应的关键帧序列之间的差异缩小。通过多次迭代执步骤S309，使损失函数的值逐渐缩小，也即使得样本视频的关键帧预测结果与样本视频对应的关键帧序列之间的差异逐渐缩小。

需要说明的是，在每次执行步骤S309对参数进行更新时，可以更新第一初始深度学习模型、第二初始深度学习模型、第三初始深度学习模型和第四初始深度学习模型对应的参数中的一项或者多项。

当损失值满足预设的训练停止条件时，停止更新参数，输出第一初始深度学习模型、第二初始深度学习模型、第三初始深度学习模型和第四初始深度学习模型对应的参数，将所述第一初始深度学习模型作为所述帧特征提取器、所述第二初始深度学习模型作为所述词特征提取器、所述第三初始深度学习模型作为所述权重计算模型、将所述第四初始深度学习模型作为所述概率计算模型，得到关键帧提取模型。

图4是本发明实施例提供的视频关键帧提取模型的数据形式结构。请参见图4，实际训练机器学习模型过程中，将包括样本视频、对应的关键帧序列以及样本视频内容描述文本(即弱标签)的训练样本输入机器学习模型，对样本视频、样本视频内容描述文本以及关键帧序列之间的关联进行深度学习，获得可准确获取用于指导视频关键帧提取的辅助信息(即候选帧为关键帧的权重)的模型，后续在利用该模型处理待确定关键帧的视频数据时，能够基于输入的待处理视频及对应的视频内容描述文本快速确定辅助信息，以基于辅助信息确定关键帧。

本发明实施例通过深度学习方法训练获得关键帧提取模型，该关键帧提取模型不仅可以提取视频的低级视觉特征，还可以提取更抽象的高级视觉特征，利用关键帧提取模型提取获得的这些特征相比于仅基于统计学而得到的低级视觉特征包含了更多的帧内容信息，因此能更精确的指导关键帧提取。

为了能够更精确的提取关键帧，本发明实施例引入了视频内容描述文本这种弱标签信息，该弱标签信息有两方面作用：一是与候选帧集特征进行交互以挖掘这种交互关系及交互关系之间的内在关联，从而构建候选帧集各候选帧的权重分布；二是在关键帧提取中起到信息指导的作用，帮助模型更精确的提取关键帧。本发明实施例利用候选帧集权重分布对视频关键帧提取进行信息指导，实现了更精准的提取视频的关键帧。

利用上述训练得到的视频关键帧提取模型提取视频的关键帧，请参见图5所示，包括步骤：

S501：获取待处理视频和与该待处理视频对应的视频内容描述文本。

S503：将所述待处理视频和所述视频内容描述文本输入已训练的关键帧提取模型，输出得到所述待处理视频的各候选帧为关键帧的概率；其中，所述关键帧提取模型是基于样本视频、对应的关键帧序列以及样本视频内容描述文本进行机器学习训练得到的。

请参见图6，在一个可行的实施例中，所述关键帧提取模型对输入数据的处理包括以下步骤：

S601、对所述待处理视频进行分析处理，得到所述待处理视频的候选帧集的候选帧集特征。

具体的，对所述待处理视频进行抽帧处理，得到所述待处理视频的候选帧集；将所述候选帧集的所有候选帧输入帧特征提取器，利用所述帧特征提取器提取所述候选帧集中各候选帧的固定维度特征向量，将提取的所有候选帧的特征向量组合形成帧向量矩阵，输出所述帧向量矩阵，所述帧向量矩阵即为所述候选帧集特征。

S603、对所述视频内容描述文本进行分析处理，得到所述视频内容描述文本的所有分词的分词特征。

具体的，对所述视频内容描述文本进行分词处理，得到所述视频内容描述文本的分词序列；将所述分词序列中所有分词输入词特征提取器，利用所述词特征提取器提取所述分词序列中各分词的固定维度特征向量，将提取的所有分词的特征向量按照分词序列组合形成词向量矩阵，输出所述词向量矩阵，所述词向量矩阵即为所述分词特征。

需要说明的是，所述分词的特征向量与所述候选帧的特征向量维度相同。

S605、基于所述候选帧集特征和所述分词特征，确定表征各候选帧与各分词之间关联性的关系特征。

由于分词的特征向量与候选帧的特征向量维度相同，因而所述候选帧集特征(帧向量矩阵)和所述分词特征(词向量矩阵)相乘能够得到由各分词的特征向量与各候选帧的特征向量按照所述分词序列组成的一个关系向量矩阵，该关系向量矩阵即为所述关系特征。

S607、将所述关系特征中的各分词还原得到视频内容描述文本，根据各候选帧与还原得到的视频描述文本中每个分词的关联性，确定表征各候选帧与所述视频内容描述文本之间相关度的候选帧权重分布。

将所述关系特征输入权重计算模型，利用权重计算模型将所述关系特征中的各分词按照所述分词序列还原得到视频内容描述文本，根据各候选帧与还原得到的视频描述文本中每个分词的关联性，计算各候选帧的特征向量与还原得到的视频内容描述文本之间的关联度，输出表征各候选帧与视频内容描述文本之间相关度的N维向量，其中，N的取值与候选帧集中候选帧的数量一致，权重计算模型输出的向量即为候选帧权重分布。

在一个可行的实施例中，可以采用权重方式表达候选帧与分词的关联性，权重越大表示相关度越高，权重越小表示相关度越小。在计算各候选帧的特征向量与还原得到的视频内容描述文本之间的关联度时，对于每个候选帧，可以查询还原得到的视频内容描述文本中的每个分词与该候选帧之间的关联性权重，然后对还原得到的视频内容描述文本中的各分词与该候选帧之间的关联性权重进行相加处理，得到表征该候选帧与该还原得到的视频内容描述文本之间相关度的总权重，参照这种方法计算得到该候选帧与每个还原得到的视频内容描述文本之间相关度的多个总权重，总权重的值越高表明该候选帧与还原得到的视频内容描述文本相关度越大，总权重的值越低表明该候选帧与还原得到的视频内容描述文本相关度越小。

S609、根据所述候选帧集特征和所述候选帧权重分布，计算所述候选帧集中各候选帧为关键帧的概率。

图7是本发明实施例提供的基于候选帧权重分布计算候选帧为关键帧的概率的方法流程图。请参见图7，确定候选帧集中各候选帧为关键帧的概率可以包括：

S701、根据候选帧权重分布对候选帧集特征进行加权操作，得到候选帧集的预处理特征向量；

S703、将预处理特征向量输入概率计算模型，通过概率计算模型的全连接层对预处理特征向量进行非线性变换并输出结果；利用概率计算模型的softmax层将全连接层的输出结果转化为候选帧集中各候选帧为关键帧的概率。

图8至图11示出了利用视频关键帧提取模型进行数据处理的算法结构图。关键帧提取算法的整体结构请参见图8，算法将整个视频关键帧提取模型分成主辅两个支路，这两个支路在前半段是并行的，使得训练效率提高，后半段由于要进行交互作用而为串行。

图8中上层分支为模型的主体，主要功能是：先将输入的视频进行抽帧得到n张候选帧CF(CandidateFrame的缩写)，这n张候选帧CF组成候选帧集合，候选帧集合中涵盖了整个视频的主要场景，随后将候选帧集合通过CNN(Convolutional Neural Networks，卷积神经网络)网络得到候选帧相应的特征向量(D维)，由此构成一个N x D的特征矩阵(N为候选帧数)，这里N x D的特征矩阵有两方面作用：一方面与弱标签信息进行交互作用得到候选帧集合的权重分布；另一方面则在弱标签的指导信息下进行关键性加权得到预处理特征向量，接着将预处理特征向量传入FC层(Full-connected layer，全连接层)，最后在Softmax层(逻辑回归模型)进行候选帧为关键帧的概率评分，从而得到最终的视频关键帧的输出。

下层分支是模型的信息辅助网络，主要功能是：先将关于视频内容的简短描述文本作为短视频的弱标签，对弱标签经词向量化(D维)后传入Bi-LSTM(双向长短期记忆网络)中得到关于描述文本的M x D的特征矩阵(M为描述文本中词的个数)，该M x D的特征矩阵与N x D的特征矩阵进行交互作用得到视频和描述文本之间的关系特征(即N x M的关系矩阵)，随后将该关系特征传入LSTM(长短期记忆网络)中得到候选帧的权重矩阵(即权重分布)，该权重分布即为描述文本作为弱标签对候选帧的指导信息，最后将候选帧的权重分布与候选帧特征进行关键性加权，输出各候选帧为关键帧的概率。

图9是本发明实施例提供的构建候选帧权重分布的方法的流程示意图。请参见图9，图中N x D的特征矩阵表示候选帧集的特征信息图，M x D的特征矩阵表示视频弱标签的特征信息图，这两个特征信息图由于每个元素的向量维度均为D，故将两者进行矩阵相乘可以得到候选帧集和弱标签之间的交互特征信息图，表示为N x M的关系矩阵，然后将该交互特征信息图传入长短期记忆网络中来进一步挖掘交互信息中的内在联系，得到N维向量，该向量即为候选帧集的N个候选帧的权重分布。

图10是本发明实施例提供的基于候选帧权重分布计算候选帧为关键帧的概率的流程示意图。请参见图10，将弱标签参与构建的N个候选帧的权重分布与原始的候选帧集的特征信息图进行融合，为关键帧提取提供一个指导信息，即对候选帧集特征信息进行加权操作，得到最后输出的预处理特征向量。将预处理特征向量输入全连接层，全连接层对输入的预处理特征向量进行非线性变换并输出，图11中f为节点，Y＝f(WX+b)为激活函数，W为候选帧权重矩阵，b为偏置常量。

Softmax层将FC层的输出结果转化为各个候选帧是关键帧的概率，计算方法如下：

其中，z_j＝qx_j+d，x_j为全连接层输出，q、d为该层参数。

由图8所示的视频关键帧提取模型可以得到包含候选帧集的权重分布，该权重分布包含了视频内容描述文本的特征信息与候选帧集的特征信息之间的交互关系以及这些交互关系中的内在关联信息，基于该权重分布可以对候选帧集的特征信息进行加权，以指导模型提取更精确的关键帧。

S505：基于各候选帧为关键帧的概率提取所述待处理视频的关键帧。

在一个可能的实施方式中，可以将各候选帧为关键帧的概率按照由高至低排序，然后根据需要提取排序在前的M个候选帧作为该待处理视频的关键帧，M为大于或等于1的正整数。

本发明实施例通过构建机器学习模型，基于样本视频、对应的关键帧序列以及样本视频内容描述文本进行机器学习训练得到关键帧提取模型；在使用该关键帧提取模型处理待处理视频过程中，挖掘待处理视频的视频内容描述文本与候选帧集之间的关联获得候选帧权重分布，利用候选帧权重分布对从候选帧集中提取关键帧进行信息指导，实现了更精确的提取视频的关键帧。

本发明实施例还提供了一种视频关键帧提取装置，图12是本发明实施例提供的视频关键帧提取装置的结构示意图，请参见图12，所述视频关键帧提取装置包括获取模块1210、处理模块1220和提取模块1230。

所述获取模块1210，用于获取待处理视频和与该待处理视频对应的视频内容描述文本；

所述处理模块1220，用于将所述待处理视频和所述视频内容描述文本输入已训练的关键帧提取模型，输出得到所述待处理视频的各候选帧为关键帧的概率；

所述提取模块1230，用于基于各候选帧为关键帧的概率提取所述待处理视频的关键帧；

在一个可行的实施例中，所述关键帧提取模型通过以下方法训练得到：

根据所述损失值调整所述机器学习模型中第一初始深度学习模型、第二初始深度学习模型、第三初始深度学习模型和第四初始深度学习模型的参数值，直至所确定的损失值达到训练停止条件时，将所述第一初始深度学习模型作为所述帧特征提取器、所述第二初始深度学习模型作为所述词特征提取器、所述第三初始深度学习模型作为所述权重计算模型、将所述第四初始深度学习模型作为所述概率计算模型，得到所述关键帧提取模型。

所述的视频关键帧提取装置与方法实施例基于同样地发明构思。

本发明实施例提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的视频关键帧提取方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图13是本发明实施例提供的一种视频关键帧提取方法的服务器的硬件结构框图。如图13所示，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)1310(处理器1310可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1330，一个或一个以上存储应用程序1323或数据1322的存储介质1320(例如一个或一个以上海量存储设备)。其中，存储器1330和存储介质1320可以是短暂存储或持久存储。存储在存储介质1320的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1310可以设置为与存储介质1320通信，在服务器1300上执行存储介质1320中的一系列指令操作。服务器1300还可以包括一个或一个以上电源1360，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1340，和/或，一个或一个以上操作系统1321，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口1340可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1300的通信供应商提供的无线网络。在一个实例中，输入输出接口1340包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1340可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图13所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器1300还可包括比图13中所示更多或者更少的组件，或者具有与图13所示不同的配置。

本发明的实施例还提供了一种存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种视频关键帧提取方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的视频关键帧提取方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络客户端中的至少一个网络客户端。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频关键帧提取方法，其特征在于，包括：

将所述待处理视频和所述视频内容描述文本输入已训练的关键帧提取模型，利用所述关键帧提取模型执行如下处理：对所述待处理视频进行分析处理，得到所述待处理视频的候选帧集的候选帧集特征；对所述视频内容描述文本进行分析处理，得到所述视频内容描述文本的所有分词的分词特征；所述对所述视频内容描述文本进行分析处理，得到所述视频内容描述文本的所有分词的分词特征，包括：对所述视频内容描述文本进行分词处理，得到所述视频内容描述文本的分词序列；

基于所述候选帧集特征和所述分词特征，确定表征各候选帧与各分词之间关联性的关系特征；将所述关系特征输入权重计算模型，利用权重计算模型将所述关系特征中的各分词按照所述分词序列还原得到视频内容描述文本，根据各候选帧与还原得到的视频描述文本中每个分词的关联性，计算各候选帧的特征向量与还原得到的所述视频内容描述文本之间的关联度，输出表征各候选帧与所述视频内容描述文本之间相关度的N维向量，N的取值与所述候选帧集中候选帧的数量一致；将输出的所述向量作为候选帧权重分布；根据所述候选帧集特征和所述候选帧权重分布，计算所述候选帧集中各候选帧为关键帧的概率；

2.根据权利要求1所述的方法，其特征在于，所述关键帧提取模型通过以下方法训练得到：

3.根据权利要求1所述的方法，其特征在于，

所述对所述待处理视频进行分析处理，得到所述待处理视频的所有候选帧的候选帧集特征，包括：

对所述待处理视频进行抽帧处理，得到所述待处理视频的候选帧集；

将所述候选帧集的所有候选帧输入帧特征提取器，利用所述帧特征提取器提取所述候选帧集中各候选帧的固定维度特征向量，将提取的所有候选帧的特征向量组合形成帧向量矩阵，输出所述帧向量矩阵；

将所述帧向量矩阵作为所述候选帧集特征；

所述对所述视频内容描述文本进行分析处理，得到所述视频内容描述文本的所有分词的分词特征，还包括：

将所述分词序列中所有分词输入词特征提取器，利用所述词特征提取器提取所述分词序列中各分词的固定维度特征向量，将提取的所有分词的特征向量按照分词序列组合形成词向量矩阵，输出所述词向量矩阵；

将所述词向量矩阵作为所述分词特征。

4.根据权利要求1所述的方法，其特征在于，所述分词的特征向量与所述候选帧的特征向量维度相同；

所述基于所述候选帧集特征和所述分词特征，确定表征各候选帧与各分词之间关联性的关系特征，包括：

将对应所述候选帧集特征的帧向量矩阵和对应所述分词特征的词向量矩阵相乘，得到各分词的特征向量与各候选帧的特征向量按照所述分词序列组成的关系向量矩阵；

将所述关系向量矩阵作为所述关系特征。

5.根据权利要求1所述的方法，其特征在于，所述根据所述候选帧集特征和所述候选帧权重分布，计算所述候选帧集中各候选帧为关键帧的概率，包括：

根据所述候选帧权重分布对所述候选帧集特征进行加权操作，得到所述候选帧集的预处理特征向量；

将所述预处理特征向量输入概率计算模型，通过所述概率计算模型的全连接层对所述预处理特征向量进行非线性变换并输出结果；通过所述概率计算模型的softmax层将所述全连接层的输出结果转化为所述候选帧集中各候选帧为关键帧的概率。

6.一种视频关键帧提取装置，其特征在于，包括：

处理模块，用于将所述待处理视频和所述视频内容描述文本输入已训练的关键帧提取模型，利用所述关键帧提取模型执行如下处理：对所述待处理视频进行分析处理，得到所述待处理视频的候选帧集的候选帧集特征；对所述视频内容描述文本进行分析处理，得到所述视频内容描述文本的所有分词的分词特征；所述对所述视频内容描述文本进行分析处理，得到所述视频内容描述文本的所有分词的分词特征，包括：对所述视频内容描述文本进行分词处理，得到所述视频内容描述文本的分词序列；

7.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-5任一所述的视频关键帧提取方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-5任一所述的视频关键帧提取方法。