CN114359775A

CN114359775A - 关键帧检测方法、装置、设备及存储介质、程序产品

Info

Publication number: CN114359775A
Application number: CN202111386998.XA
Authority: CN
Inventors: 宋浩; 黄珊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-04-15

Abstract

本申请提供了一种关键帧检测方法、装置、设备及存储介质、程序产品；本申请实施例可以应用于云技术、人工智能、智慧交通、车载等各种场景，涉及人工智能技术；该方法包括：对待检测视频的第一视频帧和第二视频帧分别进行特征提取，得到第一视频帧的第一视频帧特征，以及第二视频帧的第二视频帧特征；基于第一视频帧特征和第二视频帧特征，构建出时序特征和空间特征；利用时序特征和空间特征，确定出第一视频帧和第二视频帧之间的信息相似度；依据信息相似度，确定出待检测视频中与局部信息对应的关键帧。通过本申请，能够提高关键帧检测的准确度。

Description

关键帧检测方法、装置、设备及存储介质、程序产品

技术领域

本申请涉及人工智能技术，尤其涉及一种关键帧检测方法、装置、设备及存储介质、程序产品。

背景技术

关键帧检测是指选取视频中的少量具有代表性视频帧或视频段的过程，能够去除视频中的冗余，因此，可以广泛应用于视频理解、视频侵权分析等场景中。

在一些使用场景中，很多视频处理都是基于视频中的局部信息，例如视频中的文字来进行关键帧检测。然而，相关技术中，在基于局部信息来确定关键帧时，存在局部信息相似度计算精度较低的问题，从而使得关键帧检测的准确度也较低。

发明内容

本申请实施例提供一种关键帧检测方法、装置、设备及计算机可读存储介质、程序产品，能够提高关键帧检测的准确度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种关键帧检测方法，包括：

对待检测视频的第一视频帧和第二视频帧分别进行特征提取，得到所述第一视频帧的第一视频帧特征，以及所述第二视频帧的第二视频帧特征；

基于所述第一视频帧特征和所述第二视频帧特征，构建出时序特征和空间特征；其中，所述时序特征表征了待检测视频中的局部信息在所述第一视频帧和所述第二视频帧之间的位置变化，所述空间特征表征了所述局部信息在所述第一视频帧与所述第二视频帧中的外形；

利用所述时序特征和所述空间特征，确定出所述第一视频帧和所述第二视频帧之间的信息相似度；

依据所述信息相似度，确定出所述待检测视频中与所述局部信息对应的关键帧。

本申请实施例提供一种关键帧检测装置，包括：

特征提取模块，用于对待检测视频的第一视频帧和第二视频帧分别进行特征提取，得到所述第一视频帧的第一视频帧特征，以及所述第二视频帧的第二视频帧特征；

特征构建模块，用于基于所述第一视频帧特征和所述第二视频帧特征，构建出时序特征和空间特征；其中，所述时序特征表征了待检测视频中的局部信息在所述第一视频帧和所述第二视频帧之间的位置变化，所述空间特征表征了所述局部信息在所述第一视频帧与所述第二视频帧中的外形；

相似度确定模块，用于利用所述时序特征和所述空间特征，确定出所述第一视频帧和所述第二视频帧之间的信息相似度；

关键帧确定模块，用于依据所述信息相似度，确定出所述待检测视频中与所述局部信息对应的关键帧。

在本申请的一些实施例中，所述特征构建模块，还用于依据所述第一视频帧特征，确定出表征所述局部信息在所述第一视频帧中的位置的第一掩码区域，以及依据所述第二视频帧特征，确定出表征所述局部信息在所述第二视频帧中的位置的第二掩码区域；将所述第一掩码区域和所述第一视频帧特征融合为所述第一视频帧对应的第一输入特征，以及将所述第二掩码区域和所述第二视频帧特征融合为所述第二视频帧对应的第二输入特征；基于所述第一输入特征和所述第二输入特征，确定出所述局部信息的所述时序特征和所述空间特征。

在本申请的一些实施例中，所述特征构建模块，还用于对所述第一输入特征和所述第二输入特征做差，得到差异特征；通过对所述差异特征进行降维，得到所述时序特征；对所述第一输入特征进行降维，得到第一降维特征，以及对所述第二输入特征进行降维，得到第二降维特征；将所述第一降维特征和所述第二降维特征进行差分处理，得到所述空间特征。

在本申请的一些实施例中，所述差异特征包括：差异特征图；所述特征构建模块，还用于针对所述差异特征图在预设方向进行池化操作，得到池化特征图；按照所述预设方向对所述池化特征图进行拆分，得到N个子特征图；其中，N为所述池化特征图在所述预设方向上的长度，N大于等于1；针对N个所述子特征图分别进行池化操作，得到N个所述子特征图各自对应的池化特征；利用N个所述子特征图各自对应的池化特征，拼接成所述时序特征。

在本申请的一些实施例中，所述相似度确定模块，还用于将所述时序特征和所述空间特征进行融合，得到时空融合特征；通过相似度判断模型对所述时空融合特征进行相似度识别，得到所述第一视频帧和所述第二视频帧之间的文本相似度。

在本申请的一些实施例中，所述相似度确定模块，还用于当所述文本相似度小于相似度阈值时，将所述第一视频帧和所述第二视频帧均确定为所述待检测视频中与所述局部信息对应的所述关键帧；当所述文本相似度大于等于所述相似度阈值时，将所述第一视频帧或所述第二视频帧确定为所述待检测视频中与所述局部信息对应的所述关键帧。

在本申请的一些实施例中，所述相似度确定模块，还用于当所述文本相似度大于等于所述相似度阈值时，对所述第一视频帧和所述第二视频帧进行融合，得到融合视频帧；将所述融合视频帧确定为所述待检测视频中与所述局部信息对应的所述关键帧。

在本申请的一些实施例中，所述特征构建模块，还用于对所述第一视频帧特征进行特征抽取，得到第一待重构特征；将所述第一待重构特征进行升维重构，得到第一重构特征；依据所述第一视频帧特征和所述第一重构特征，融合出第一融合特征；针对所述第一融合特征中各个通道的特征分量进行融合，得到表征所述局部信息在所述第一视频帧中的位置的所述第一掩码区域。

在本申请的一些实施例中，所述第一融合特征包括：第一融合特征图，所述特征分量包括：子融合特征图；所述特征构建模块，还用于依据所述第一融合特征图的每个所述通道的子融合特征图，生成每个所述通道的通道特征向量；针对每个所述通道的所述通道特征向量计算出对应的注意力权重；基于所述注意力权重，对每个所述通道的所述通道特征向量进行加权融合，得到融合特征向量；针对所述融合特征向量进行特征图的还原，得到表征所述局部信息在所述第一视频帧中的位置的所述第一掩码区域。

在本申请的一些实施例中，所述特征提取模块，还用于将所述第一视频帧和所述第二视频帧分别进行分块，得到多个第一图像块和多个第二图像块；针对多个所述第一图像块分别进行卷积处理，得到多个所述第一图像块对应的多个第一卷积特征图；针对多个所述第二图像块分别进行卷积处理，得到多个所述第二图像块对应的多个第二卷积特征图；将所述多个第一卷积特征图，确定为所述第一视频帧特征，以及将所述多个第二卷积特征图，确定为所述第二视频帧特征。

本申请实施例提供一种关键帧检测设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的关键帧检测方法。

本申请实施例提供一种计算机可读存储介质，包括可执行指令，所述可执行指令被处理器执行时本申请实施例提供的关键帧检测方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时本申请实施例提供的关键帧检测方法。

本申请实施例具有以下有益效果：关键帧检测设备会同时确定出表征局部信息在第一视频帧和第二视频帧之间的位置变化的时序特征，以及表征局部信息在第一视频帧和第二视频帧中的外形的空间特征，并进一步结合位置变化和外形两个维度上的特征得出信息相似度，使得确定相似度时所考虑的特征更加全面，提高了信息相似度的判断准确度，最终提升了关键帧检测的准确度。

附图说明

图1是通过字典学习及稀疏编码确定关键帧的流程示意图；

图2是基于多样性和表达性的奖励函数确定关键帧流程示意图；

图3是利用构建的基于注意力的编码解码网络获取关键帧的流程图；

图4是基于文本孪生网络进行关键帧检测的过程示意图；

图5是本申请实施例提供的关键帧检测系统的架构示意图；

图6是本申请实施例提供的图5中的服务器的结构示意图；

图7是本申请实施例提供的关键帧检测方法的流程示意图一；

图8是本申请实施例提供的关键帧检测方法的流程示意图二；

图9是本申请实施例提供的关键帧检测方法的流程示意图三；

图10是本申请实施例提供的关键帧检测模型的架构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器或者数字计算机控制的机器模拟、延伸和扩展的人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解人工智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

2)计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

3)机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

4)深度学习(Deep Learning，DL)是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目的是让机器能够像人一样具有分析学习的能力，能够识别文字、图像和声音等数据。

5)关键帧，是指能够对视频中的场景事件进行概括的帧。由于视频中的很多视频帧通常是与场景事件无关的，是冗余的，在进行例如视频内容理解等处理时，使用关键帧无疑能够大幅减轻计算量。

6)注意力机制(Attention Mechanism)是机器学习中的一种数据处理方法，广泛应用在自然语言处理、图像识别以及语音识别等各种不同类型的机器学习任务中。通过注意力机制，能够针对输入数据的不同部分赋予不同的权重，以通过权重将模型在运算时的注意力集中在更为重要的信息上，以便模型在判断时做出更加准确的判断。

7)云计算(Cloud Computing)指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可以是其他服务。云计算是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

随着人工智能技术的研究和进步，人工智能技术在多个领域展开了研究和应用；例如，场景的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗和智能客服等。视频的关键帧检测是人工智能的一个重要方向。下面，对人工智能在关键帧检测的应用进行说明。

关键帧检测是指选取视频中的少量具有代表性视频帧或视频段的过程，选择出的视频帧或视频段能够完整表达视频的整个内容，且去除了冗余，因此，可以广泛应用于视频理解、视频侵权分析等场景中。

早期的关键帧检测中，通常是利用浅层机器学习来实现的。例如，将关键帧检测过程视作子集选取的问题，以通过子模块优化算法得到该问题的最优解，即得到关键帧，或者，利用目标注视跟踪技术检测关键帧，此时，同样会使用子模块优化算法确保检测的关键帧的相关性和多样性。

随着技术的进步，出现了通过字典学习及稀疏编码提升关键帧帧的信息及相关性的研究，并通过关注不同视频段之间的运动区域和相关性提取出关键帧的过程。示例性的，图1是通过字典学习及稀疏编码确定关键帧的流程示意图。参见图1，针对输入的视频1-1进行运动区域检测处理1-2，对运行区域检测结果进行预处理1-3，得到时空特征1-4。然后对时空特征1-4进行稀疏化表示，得到稀疏特征1-5，针对训练视频1-6在稀疏特征1-5的基础上结合稀疏系数1-7、字典特征1-8和字典图特征1-9，计算出匹配度1-10，在匹配度1-10大于阈值时，更新字典图特征和重计算稀疏系数1-11，然后输出关键帧1-12，在匹配度1-10小于阈值时，直接输出关键帧1-12；针对测试视频1-13，将稀疏特征1-5与时空图1-14进行匹配，在不匹配时更新字典图特征1-9。

然而，浅层机器学习的特征表征能力、泛化能力始终有限，无法得到较好的关键帧检测效果。

基于此，基于深度学习的关键帧检测逐渐成为主流技术。例如，通过设置考虑关键帧的多样性和表达性的奖励函数，来实现有监督和无监督的关键帧检测。示例性的，图2是基于多样性和表达性的奖励函数确定关键帧流程示意图。首先，将视频解码为多个视频序列集合V1-Vm，然后通过级联的卷积神经网络2-1和双向循环网络2-2对视频序列集合V1-Vm进行特征提取，并基于提取到的特征生成关于关键帧的多样性和表达性的奖励函数2-3，然后联合奖励函数2-3和提取到的特征确定出关键帧2-4。

又例如，通过将关键帧检测归结为从序列到序列的学习问题，通过引入长短期记忆网络(Long Short-Term Memory，LSTM)网络构建基于注意力的编码和解码网络，来获取关键帧。示例性的，图3是利用构建的基于注意力的编码解码网络获取关键帧的流程图，此时，先将视频的视频帧序列3-1输入至编码器3-2中，以进行编码，然后将利用注意力机制3-3所确定出的权重信息3-31和编码器3-2的编码结果输入进行解码器3-4中进行解码，最后将解码器3-4输出的解码结果3-5和视频帧序列3-1进行结合，得到关键帧3-6。

还例如，通过监督学习的策略，来使用LSTM和行列式点过程自动地检测出视频中的关键帧或关键段；通过LSTM对视频中的扩张时序单元进行重构，通过重构误差实现视频的关键帧检测，其中，扩张时序单元时通过考虑不同长度的视频段特征联合生成的。

但是，在实际的应用场景中，很多视频处理都是基于视频中的局部信息，例如视频中的文字来进行关键帧检测的，此时，需要检测出视频中拥有不同的局部信息的关键帧。然而，上述方法都基于视频的整体图像内容进行关键帧检测的，而对于基于局部信息的关键帧的检测并不理想。

对此，相关技术中，出现了一些基于局部信息进行关键帧检测的方法。例如基于文本孪生网络进行关键帧检测，该方式通过孪生网络对相邻视频帧的相似度进行计算，同时引入注意力模块，对视频帧中的文字进行识别，从而基于识别出的文字确定出关键帧。示例性的，图4是基于文本孪生网络进行关键帧检测的过程示意图。针对视频4-1中的相邻视频帧4-2，输入进文本孪生网络，即网络4-31和网络4-32(其中，网络4-31和网络4-32分别包含了卷积层、注意力模块和复合模块(由多个卷积层所构成的模块)，网络4-31和网络4-32参数共享4-4)分别进行特征抽取，然后将抽取到的特征均融入到全连接层4-5中进行识别，以得到相似度4-6，从而得到关键帧4-8。同时网络4-31和网络4-32的注意力模块还会输出图像中包含文本4-71，或者是未包含文本4-72的结果。

虽然基于文本孪生网络进行关键帧检测能够检测出视频中的文字关键帧，但是这种方式是通过视频帧的所有内容，来实现对局部信息的相似度的分析，从而当视频帧中的局部信息，即文字不变，而视频帧的其他内容变化较大的情况下，这种方式并不能有效地提取出关键帧，使得关键帧的重复率仍然较高。

为了提高关键帧检测的准确率，相关技术中，还出现了基于局部信息的位置进行关键帧检测的方式，例如，基于文本块位置进行关键帧检测的方式。这种方式是基于文本块掩码网络，自动计算视频帧中的文本块位置，通过将文本块位置与网络提取的特征图进行结合，以有效地通过文本块位置计算与相邻帧间的相似度，然后基于相邻帧间的相似度，从视频中确定出关键帧，例如，将相似度较高的帧舍弃，保留相似度较低的帧。然而，这种方式在任意采样率下出现的文字关键帧重复率和召回率依据不稳定，究其原因，这种方式在基于文本块位置计算相似度时，存在相似度计算的精度较低的问题，从而使得关键帧检测的准确度受到了影响。

由上述可见，相关技术中，在基于局部信息来确定关键帧时，存在局部信息相似度计算精度较低的问题，从而使得关键帧检测的准确度也较低。

除此之外，局部信息的定位精度，也会给关键帧检测的准确度造成影响。相关技术中，在定位局部信息时，例如定位文本块位置时，会存在一定的误差，此时，必然会导致相似度存在较大的误差，最终使得关键帧检测的准确度较低。

本申请实施例提供一种关键帧检测方法、装置、设备和计算机可读存储介质、程序产品，能够提高关键帧检测的准确度。下面说明本申请实施例提供的关键帧检测设备的示例性应用，本申请实施例提供的关键帧检测设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的终端，也可以实施为服务器。下面，将说明关键帧检测设备实施为服务器时的示例性应用。

参见图5，图5是本申请实施例提供的关键帧检测系统的架构示意图，为实现支撑一个关键帧检测应用，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400用于响应用户在图形界面400-1上的操作，生成待检测视频，并通过网络300将待检测视频发送给服务器200。

服务器200用于对待检测视频的第一视频帧和第二视频帧分别进行特征提取，得到第一视频帧的第一视频帧特征，以及第二视频帧的第二视频帧特征；基于第一视频帧特征和所述第二视频帧特征，构建出时序特征和空间特征；其中，时序特征表征了待检测视频中的局部信息在第一视频帧和第二视频帧之间的位置变化，空间特征表征了局部信息在第一视频帧与第二视频帧中的外形；利用时序特征和空间特征，确定出第一视频帧和第二视频帧之间的信息相似度；依据信息相似度，确定出待检测视频中与局部信息对应的关键帧。

服务器200还用于将关键帧发送给终端400，终端400在图形界面400-1上展示关键帧。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

参见图6，图6是本申请实施例提供的图5中的服务器的结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的关键帧检测装置可以采用软件方式实现，图6示出了存储在存储器250中的关键帧检测装置255，其可以是程序和插件等形式的软件，包括以下软件模块：特征提取模块2551、特征构建模块2552、相似度确定模块2553和关键帧确定模块2554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的关键帧检测装置可以采用硬件方式实现，作为示例，本申请实施例提供的关键帧检测装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的关键帧检测方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Progra mmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在一些实施例中，终端或服务器可以通过运行计算机程序来实现本申请实施例提供的权限发放方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如关键帧检测APP；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

本申请实施例可以应用于，下面，将结合本申请实施例提供的关键帧检测设备的示例性应用和实施，说明本申请实施例提供的关键帧检测方法。

参见图7，图7是本申请实施例提供的关键帧检测方法的流程示意图一，将结合图7示出的步骤进行说明。

S101、对待检测视频的第一视频帧和第二视频帧分别进行特征提取，得到第一视频帧的第一视频帧特征，以及第二视频帧的第二视频帧特征。

本申请实施例是在对视频进行关键帧检测的场景下实现的。首先，关键帧检测设备会将需要进行关键帧检测的待检测视频的视频帧，逐个作为第一视频帧，再针对第一视频帧确定出与其进行相似度计算的第二视频帧，然后再分别对第一视频帧进行特征提取，得到第一视频帧特征，对第二视频帧进行特征提取，得到第二视频帧特征。

可以理解的是，待检测视频可以是用户拍摄并上传的短视频(时长小于5分钟的视频)，例如，混剪视频、从电视剧中截取出的片段、MV等。待检测视频还可以是专业视频制作方所发行的长视频，例如，自然类的纪录片、电影、电视剧等等，本申请在此不作限定。

需要说明的是，第二视频帧可以是与第一视频帧相邻的视频帧，例如第一视频帧的下一帧，也可以是与第一视频帧之间相差了固定数量的视频帧，例如在第一视频帧之前的第10个视频帧等，本申请在此不作限定。

在一些实施例中，关键帧检测设备还可以先对待检测视频进行下采样，得到下采样帧序列，然后再将下采样帧序列中的视频帧逐个作为第一视频帧，同时再针对第一视频帧确定出对应的第二视频帧，如此，能够大幅度减少关键帧检测时所要计算的视频帧的数量。

可以理解的是，关键帧检测设备可以按照固定间隔抽帧的方式实现下采样，例如，每秒抽取1帧或者多帧，以得到下采样帧序列；关键帧检测设备还可以借助于人工智能中的视频理解技术，从待检测视频中提取出描述了重要语义的片段，利用这些片段所对应的视频帧生成下采样帧序列，本申请在此不作限定。

第一视频帧和第二视频帧在时序上的顺序可以根据实际情况进行设置，例如，可以设置为第一视频帧在前，也可以是设置为第二视频帧在前，只要第一视频帧和第二视频帧的具有时序差别即可，本申请在此不作限定。

在一些实施例中，关键帧检测设备可以直接将利用卷积神经网络(Convolutional Neural Network，CNN)模型从第一视频帧中所提取出的图像特征，确定为第一视频帧特征，将利用CNN模型从第二视频帧中所提取出的图像特征，确定为第二视频帧特征。

在另一些实施例中，关键帧检测设备还可以对第一视频帧和第二视频帧进行分块处理，然后针对分块所得到的图像块进行图像特征的抽取，利用第一视频帧的各个图像块的图像特征，生成第一视频帧特征，利用第二视频帧的各个图像块的图像特征，生成第二视频帧特征。

S102、基于第一视频帧特征和第二视频帧特征，构建出时序特征和空间特征。

关键帧检测设备基于所得到的第一视频帧特征和第二视频帧特征，确定出待检测视频的局部信息在第一视频帧和第二视频帧中的位置变化，例如图标在第一视频帧和第二视频帧的位置变化，文本信息中在第一视频帧和第二视频帧中发生变化的文字等。由于第一视频帧和第二视频帧存在时序上的差异，从而，局部信息在第一视频帧和第二视频帧中的变化，往往是在时序维度上的变化，关键帧检测设备会将该变化确定为时序特征。同时，关键帧检测设备还会利用第一视频帧特征和第二视频帧特征，确定出局部信息在第一视频帧和第二视频帧的外形，例如，文本信息的内容，图像信息的颜色、形状等等。由于外形一般体现在空间中，从而，基于外形所得的特征就可以作为空间特征。

也就是说，本申请实施例中，时序特征表征了待检测视频中的局部信息在第一视频帧和第二视频帧之间的运动情况，空间特征表征了局部信息在第一视频帧与所述第二视频帧中的外形。

可以理解的是，局部信息可以是指待检测视频所出现的文本信息(文本内容不限)，也可以是指待检测视频中出现的特殊图标、特殊人物的图像信息，本申请在此不作限定。

在一些实施例中，关键帧检测设备对第一视频帧特征和第二视频帧特征各自的降维特征进行识别，以初步定位出表征局部信息分别在第一视频帧和第二视频帧中的位置的掩码区域，然后基于掩码区域将特征抽取的注意力集中在第一视频帧特征和第二视频帧特征中与局部信息相关的特征中，再基于与第一视频帧特征中局部信息相关的特征，以及第二视频帧特征中与局部信息相关的特征，确定出时序特征和空间特征。

在另一些实施例中，关键帧检测设备还可以先利用局部信息的模板的特征，与第一视频帧特征和第二视频帧特征进行匹配，将从第一视频帧特征和第二视频帧特征中直接匹配到的特征作为空间特征，将从第一视频帧特征中匹配到特征和从第二视频帧特征中匹配到的特征进行做差，以得到时序特征。

S103、利用时序特征和空间特征，确定出第一视频帧和第二视频帧之间的信息相似度。

关键帧检测设备在得到时序特征和空间特征之后，就会基于时序特征和空间特征进行相似度的识别，得到表征第一视频帧和第二视频帧中的局部信息的相似情况的信息相似度。如此，信息相似度是关键帧检测设备同时考虑了局部信息在第一视频帧和第二视频帧之间的位置变化，即局部信息的动态变化，以及局部信息的在第一视频帧和第二视频帧中的外形，从而考虑的特征维度更加全面。

在一些实施例中，关键帧检测设备可以直接将时序特征和空间特征输入进行训练好的机器学习或深度学习模型中，以计算出信息相似度。

在另一些实施例中，关键帧检测设备还可以将时序特征和空间特征，分别与不同相似度分数(或级别)的预设特征进行匹配，从而确定出时序特征所命中的相似度分数和空间特征所命中的相似度分数，将这两个相似度分数的均值确定为最终的信息相似度。

S104、依据信息相似度，确定出待检测视频中与局部信息对应的关键帧。

关键帧检测设备在确定出信息相似度之后，就可以根据信息相似度，确定出第一视频帧和第二视频帧是否描述的是相同或相类似的内容，从而明确是要将第一视频帧或第二视频帧确定为关键帧，还是要将第一视频帧或第二视频帧进行舍弃。如此，关键帧检测设备就能够确定出待检测视频的关键帧了。

需要说明的是，当局部信息不同时，从待检测视频帧中所确定出的关键帧也会是不同的，例如，当局部信息为文本时，关键帧为包含了不同文本的视频帧，当局部信息为预设图标时，关键帧为包含了预设图标的视频帧。也就是说，本申请中，关键帧检测设备所确定的关键帧是与局部信息相对应的。

可以理解的是，相比于相关技术中基于局部信息来确定关键帧的方式，在本申请实施例中，关键帧检测设备会同时确定出表征局部信息在第一视频帧和第二视频帧之间的位置变化的时序特征，以及表征局部信息在第一视频帧和第二视频帧中的外形的空间特征，并进一步结合位置变化和外形两个维度上的特征得出信息相似度，使得确定相似度时所考虑的特征更加全面，提高了信息相似度的判断准确度，最终提升了关键帧检测的准确度。

基于图7，参见图8，图8是本申请实施例提供的关键帧检测方法的流程示意图二。在本申请的一些实施例中，基于第一视频帧特征和第二视频帧特征，构建出时序特征和空间特征，即S102的具体实现过程，可以包括：S1021-S1023，如下：

S1021、依据第一视频帧特征，确定出表征局部信息在第一视频帧中的位置的第一掩码区域，以及依据第二视频帧特征，确定出表征局部信息在第二视频帧中的位置的第二掩码区域。

关键帧检测设备先利用第一视频帧特征，从第一视频帧中定位出局部信息，然后再基于局部信息的位置，针对第一视频帧特征中的各个特征确定出注意力权重，以通过注意力权重不同表征出局部信息的位置，例如，对于局部信息对应的特征，确定较高的权重，对于其他部分所对应的特征，确定较低的权重。接着，关键帧检测设备利用不同各个特征所对应的注意力权重组合成特征图，从而得到了第一掩码区域。关键帧检测设备按照同样的方式，就能确定出第二掩码区域。

S1022、将第一掩码区域和第一视频帧特征融合为第一视频帧对应的第一输入特征，以及将第二掩码区域和第二视频帧特征融合为第二视频帧对应的第二输入特征。

关键帧检测设备将第一掩码区域和第一视频帧特征进行融合，以使得第一视频帧特征中与局部信息相对应的特征得到保留，第一视频帧特征中与除局部信息之外的其他内容相对应的特征得到抑制，从而以便于后续对第一输入特征处理时，将处理的注意力集中在第一视频帧特征中与局部信息相对应的特征上。同理的，关键帧检测设备将第二掩码区域与第二视频帧特征进行融合，会使得后续对第二输入特征进行处理时，注意力集中在第二视频帧特征中与局部信息相对应的特征上。

在一些实施例中，关键帧检测设备可以通过将第一掩码区域和第一视频帧特征进行加权，得到第一输入特征。在另一些实施例中，关键帧检测设备还可以直接在第一视频帧特征上叠加第一掩码区域，得到第一输入特征。

可以理解的是，关键帧检测设备会利用与第一输入特征相同的融合方式，融合生成第二输入特征。

S1023、基于第一输入特征和第二输入特征，确定出局部信息的时序特征和空间特征。

关键帧检测设备在得到第一输入特征和第二输入特征之后，可以通过直接对第一输入特征和第二输入特征做差，得到时序特征，直接对第一输入特征和第二输入特征分别进行特征抽取，利用抽取出的特征融合成空间特征，或者是针对第一输入特征和第二输入特征的差值进行特征抽取，得到时序特征，利用从第一输入特征和第二输入特征中分别抽取出的特征进行做差，得到空间特征，本申请在此不作限定。

本申请实施例中，关键帧检测设备能够将先基于第一视频帧特征和第二视频帧特征，分别确定出第一掩码区域和第二掩码区域，然后通过将第一视频帧特征与第一掩码区域进行融合，将第二视频帧特征与第二掩码区域进行融合，得到了能够抑制第一视频特征和第二视频帧特征中与局部信息无关的图像内容所对应的特征，从而保证了后续在生成时序特征和空间特征时，是针对局部信息进行的，进而保证了后续所计算的信息相似度的准确度。

在本申请的一些实施例中，基于第一输入特征和第二输入特征，确定出局部信息的时序特征和空间特征，即S1023的具体实现过程，可以包括：S1023a-S1023d，如下：

S1023a、对第一输入特征和第二输入特征做差，得到差异特征。

可以理解的是，关键帧检测设备可以利用第一输入特征减去第二输入特征，得到差异特征，也可以利用第二输入特征减去第一输入特征，得到差异特征，本申请在此不作限定。

S1023b、通过对差异特征进行降维，得到时序特征。

关键帧检测设备可以通过对差异特征进行通道压缩，来实现对差异特征的降维，也可以通过对差异特征进行特定方向，例如预设方向上的池化操作，来实现对差异特征的降维，还可以先对差异特征进行特定方向上的池化操作，再依据所得到的池化特征进行拼接，来实现对差异特征的降维，以得到时序特征，本申请在此不作限定。

S1023c、对第一输入特征进行降维，得到第一降维特征，以及对第二输入特征进行降维，得到第二降维特征。

可以理解的是，对第一输入特征和第二输入特征的降维过程，与对差异特征进行降维的过程类似，在此不再赘述。

S1023d、将第一降维特征和第二降维特征进行差分处理，得到空间特征。

关键帧检测设备通过对第一降维特征和第二降维特征做差，以实现对第一降维特征和第二降维特征的差分处理，做得到的差值结果，就是空间特征。

需要说明的是，生成时序特征和空间特征的顺序，并不会影响最终的信息相似度。从而，在另一些实施例中，关键帧检测设备可以先执行S1023c-S1023d，后执行S1023a-S1023b，也可以同时执行S1023a-S1023b，和S1023c-S1023d，本申请在此不作限定。

在本申请的一些实施例中，差异特征包括：差异特征图，此时，通过对差异特征进行降维，得到时序特征，即S1023b的具体实现过程，可以包括：S201-S204，如下：

S201、针对差异特征图在预设方向进行池化操作，得到池化特征图。

关键帧检测设备在预设方向上对差异特征图进行池化操作，以使得差异特征图在预设方向上的特征合并为一个特征，以生成一个新的特征图，这个新的特征图，就是池化特征图。

可以理解的是，预设方向可以为水平方向，即差异特征图宽的方向，也可以为竖直方向，即差异特征图高的方向。如此，所得到的池化特征图要么是高度为差异特征图的高度，宽度为1的特征图，要么是高度为1，宽度为差异特征图的宽度的特征图。

需要说明的是，差异特征图的通道数可能不为1，而当关键帧检测设备是针对每个通道的特征图均在预设方向上进行池化时，并没有对通道进行合并，从而得到的池化特征图的通道数与差异特征图的通道数相同。

示例性的，当差异特征图为64*56*56(C*H*W)，预设方向为水平方向时，关键帧检测设备就是生成64*56*1的池化特征图。

S202、按照预设方向对池化特征图进行拆分，得到N个子特征图。

接着，关键帧检测设备会在预设方向上，对池化特征图进行切分，以得到N个子特征图。当预设方向为竖直方向时，关键帧检测设备会得到差异特征图的宽度个子特征图，而当预设方向为水平方向时，关键帧检测设备会得到池化特征图的高度个特征图。也就是说，关键帧检测设备会得到池化特征图在预设方向上的长度个子特征图，从而，N为差异特征图在预设方向上的长度。N大于等于1。

可以理解的是，每个子特征图的尺寸都为C*1*1，其中，C是池化特征图的通道数，也是差异特征图的通道数。

示例性的，针对64*56*1的池化特征图，关键帧检测设备在按照水平方向进行拆分时，会得到56个64*1*1的子特征图。

S203、针对N个子特征图分别进行池化操作，得到N个子特征图各自对应的池化特征。

关键帧检测设备在得到N个子特征图之后，会对每个子特征图都进行池化操作，即将每个子特征图融合为一个特征值，这个特征就是每个子特征所对应的池化特征。如此，关键帧检测设备会得到N个池化特征。

可以理解的是，本申请实施例中的池化操作，可以是指最大池化操作，也可以是指平均池化操作，本申请在此不作限定。

S204、利用N个子特征图各自对应的池化特征，拼接成时序特征。

最后，关键帧检测设备会将与N个子特征图一一对应的N个池化特征进行拼接，以得到一个特征向量，这个特征向量，就是所要确定的时序特征。

在一些实施例中，关键帧检测设备可以按照N个子特征图的顺序，对N个池化特征进行拼接。在另一些实施例中，关键帧检测设备还可以按照随机顺序对N个时候特征进行拼接，本申请在此不作限定。

本申请实施例中，关键帧检测设备通过池化操作对差异特征图进行初步降维，然后再拆分出子特征图，针对子特征图继续进行池化操作，以将差异特征图中最具有代表性的一些特征保存下来，即得到池化特征，最后基于池化特征的时序特征，以便于后续计算出信息相似度。

在本申请的一些实施例中，第一输入特征包括：第一输入特征图；对第一输入特征进行降维，得到第一降维特征，即S1023c的具体实现过程，可以包括：S205-S208，如下：

S205、针对第一输入特征图在预设方向进行池化操作，得到第一池化图。

S206、按照预设方向对第一池化图进行拆分，得到M个第一子池化图。其中，M为第一池化图在所述预设方向上的长度，M大于等于1。

S207、针对M个第一子池化图分别进行池化操作，得到M个第一子池化图各自对应的输出特征。

S208、将M个第一子池化图各自对应的输出特征确定为第一降维特征。

需要说明的是，S205-S207的处理过程，与S201-S203的处理过程基本类似，在此不再赘述。

在本申请的一些实施例中，第二输入特征包括：第二输入特征图；对第二输入特征进行降维，得到第二降维特征，即S1023c的具体实现过程，可以包括：S209-S212，如下：

S209、针对第二输入特征图在预设方向进行池化操作，得到第二池化图。

S210、按照预设方向对第二池化图进行拆分，得到L个第二子池化图。其中，L为第二池化图在所述预设方向上的长度，L大于等于1。

S211、针对L个第二子池化图分别进行池化操作，得到L个第二子池化图各自对应的输出特征。

S212、将L个第二子池化图各自对应的输出特征确定为第二降维特征。

需要说明的是，S209-S211的处理过程，与S201-S203的处理过程基本类似，在此不再赘述。

基于图7，参见图9，图9是本申请实施例提供的关键帧检测方法的流程示意图三。在本申请的一些实施例中，信息相似度包括：文本相似度，此时，利用时序特征和空间特征，确定出第一视频帧和第二视频帧之间的信息相似度，即S103的具体实现过程，可以包括：S1031-S1032，如下：

S1031、将时序特征和空间特征进行融合，得到时空融合特征。

可以理解的是，关键帧检测设备可以对时序特征和空间特征进行拼接，得到时空融合特征，也可以通过对时序特征和空间特征进行求和，得到时空融合特征，本申请在此不作限定。

S1032、通过相似度判断模型对时空融合特征进行相似度识别，得到第一视频帧和第二视频帧之间的文本相似度。

接着，关键帧检测设备会将融合得到的时空融合特征输入进训练好的相似度判断模型中，以利用相似度判断模型对时空融合特征进行相似度识别，所得到的识别结果就是第一视频帧和第二视频帧的文本相似度。

需要说明的是，文本相似度表征了第一视频帧中的字幕文本和第二视频帧中的字幕文本的相似程度，如此，在后续就是基于文本相似度进行关键帧的筛选的，从而能够筛选出待检测视频中基于文字的关键帧，即文字关键帧。可以理解的是，不同的文字关键帧中的文本不同。

在一些实施例中，相似度判断模型为全连接层，在另一些实施例中，相似度判断模型为Softmax层，本申请在此不做限定。

本申请实施例中，关键帧检测设备能够根据时序特征和空间特征确定出第一视频帧和第二视频帧的文本相似度，以便于后续依据文本相似度确定出待检测视频中的文字关键帧。

在本申请的一些实施例中，依据信息相似度，筛选出待检测视频中与局部信息对应的关键帧，即S104的具体实现过程，可以包括：S1041或S1042，如下：

S1041、当文本相似度小于相似度阈值时，将第一视频帧和第二视频帧均确定为待检测视频中与局部信息对应的关键帧。

关键帧检测设备将文本相似度与相似度阈值进行比较，当确定出文本相似度小于相似度阈值时，认为第一视频帧和第二视频帧所包含的文本不相同，此时，就会将第一视频帧和第二视频帧确定为局部信息所对应的关键帧。

S1042、当文本相似度大于等于相似度阈值时，将第一视频帧或第二视频帧确定为待检测视频中与局部信息对应的关键帧。

当文本相似度大于等于相似度阈值时，关键帧检测设备就会认为第一视频帧和第二视频帧所包含的文本是相同的。即使第一视频帧和第二视频帧的内容不相同，关键帧检测设备也只会从第一视频帧和第二视频帧中择一保留，如此，所得到的关键帧中的文本就会各不相同。

可以理解的是，相似度阈值可以是根据实际情况设置好的，也可以是根据待检测视频的类别来动态调整的，例如当待检测视频为电视剧时，将相似度阈值调为0.5，或者当待检测视频为短视频时，将相似度阈值调为0.8等，本申请在此不作限定。

本申请实施例中，关键帧检测设备能够根据文本相似度与相似度阈值之间的大小关系，从第一视频帧和第二视频帧筛选出待检测视频的关键帧，从而使得待检测视频帧中包含不同的文本的视频帧被确定为关键帧，减少了关键帧的冗余。

在本申请的一些实施例中，S104的具体实现过程，还可以包括：S1043-S1044，如下：

S1043、当文本相似度大于等于相似度阈值时，对第一视频帧和第二视频帧进行融合，得到融合视频帧。

S1044、将融合视频帧确定为待检测视频中与局部信息对应的关键帧。

当文本相似度大于相似度阈值时，关键帧检测设备除了从第一视频帧和第二视频帧中任选一个作为关键帧之外，还可以将第一视频帧和第二视频帧融合为一个视频帧，如此，就得到了融合视频帧。最后，关键帧检测设备将融合视频帧确定为局部信息所对应的关键帧，以使得关键帧中将第一视频帧和第二视频帧的图像内容都能得以保留。

本申请实施例中，关键帧检测设备能够在第一视频帧和第二视频帧的文本较为相似时，将第一视频帧和第二视频帧融合，从而所得到的关键帧中保留了更多的图像信息，使得关键帧的信息量更大。

在本申请的一些实施例中，依据第一视频帧特征，确定出表征局部信息在第一视频帧中的位置的第一掩码区域，即S1021的具体实现过程，可以包括：S1021a-S1021d，如下：

S1021a、对第一视频帧特征进行特征抽取，得到第一待重构特征。

关键帧检测设备将第一视频帧帧特征输入特征抽取模型，以通过特征抽取模型将对第一视频帧特征继续进行降维，得到第一待重构特征。可以理解的是，特征抽取模型中可以包括一个或多个卷积层。

当特征抽取模型中仅包括一个卷积层时，关键帧检测设备该卷积层的输出作为第一待重构特征。

当特征抽取模型中包括多个级联的卷积层时(每个卷积层都会输出一个中间特征)，关键帧检测设备会将每个卷积层所输出的中间特征，均确定为第一待重构特征。

S1021b、将第一待重构特征进行升维重构，得到第一重构特征。

关键帧检测设备在得到第一待重构特征之后，可以通过反卷积或上采样来实现对第一待重构特征进行升维重构，以使得第一待重构特征能够变化为维度较高的第一重构特征。下面，以反卷积为例说明升维重构的过程。

当特征抽取模型中仅包括一个卷积层时，关键帧检测设备会直接利用一次反卷积，得到第一重构特征。

当特征抽取模型中包括多个级联的卷积层时，关键帧检测设备先针对最后一个卷积层所输出的中间特征进行反卷积，将所得到的结果与倒数第二个卷积层所输出的中间特征进行合并，得到合并特征，然后再针对该合并特征继续进行反卷积，如此迭代，直至完成卷积层数量次反卷积之后，将每次反卷积所得到的结果，确定为第一重构特征。

可以理解的是，通过对第一待重构特征的升维重构，能够更加有效地定位出视频帧中的局部信息，从而局部信息的位置表征更加准确，以进一步提高相似度计算时的准确度。

S1021c、依据第一视频帧特征和第一重构特征，融合出第一融合特征。

本申请实施例中，关键帧检测设备在第一视频帧特征的基础上，融合第一重构特征所包含的一个或多个反卷积结果，以得到第一融合特征。

在另一些实施例中，关键帧检测设备还可以将第一视频帧特征，与第一重构特征中的最后一个反卷积结果进行融合，得到临时融合结果，同时将在多次反卷积过程中所得到的合并特征，与临时融合结果进行拼接，得到最终的第一融合特征。

S1021d、针对第一融合特征中各个通道的特征分量进行融合，得到表征局部信息在第一视频帧中的位置的第一掩码区域。

第一融合特征中包含了多个通道的特征分量，此时，关键帧检测设备可以通过注意力机制，将第一融合特征中的各个通道的特征分量进行融合，从而能够明确局部信息出现在第一视频帧中的哪个区域，并针对局部信息的特征，以及其他内容的特征分别生成注意力权重，最终利用这些注意力权重组成第一掩码区域，如此，就能够通过注意力权重的不同来表征出局部信息在第一视频帧中的区域了。

在本申请的一些实施例中，依据第二视频帧特征，确定出表征局部信息在第二视频帧中的位置的第二掩码区域，即S1021的具体实现过程，还可以包括：S1021e-S1021h，如下：

S1021e、对第二视频帧特征进行特征抽取，得到第二待重构特征。

S1021f、将第二待重构特征进行升维重构，得到第二重构特征。

S1021g、依据第二视频帧特征和第二重构特征，融合出第二融合特征。

S1021h、针对第二融合特征中各个通道的特征分量进行融合，得到表征所局部信息在第二视频帧中的位置的第二掩码区域。

需要说明的是，S1021e-S1021h的处理过程与S1021a-S1021d的处理过程类似，在此不再赘述。

在本申请的一些实施例中，第一融合特征包括：第一融合特征图，特征分量包括：子融合特征图；针对第一融合特征中各个通道的特征分量进行融合，得到表征局部信息在第一视频帧中的位置的第一掩码区域，即S1021d的具体实现过程，可以包括：S301-S304，如下：

S301、依据第一融合特征图的每个通道的子融合特征图，生成每个通道所对应的通道特征向量。

每个通道的子融合特征图中，均包含了多个特征值(特征值的数量为子融合特征图的高度和宽度的乘积)，然后将这些特征值拼接成一个特征向量，该特征向量就是每个通道所对应的通道特征向量。

示例性的，当第一融合特征图为64*56*56(C*H*W)时，关键帧检测设备就是将56*56的特征图拉成3136维的向量，从而得到64个3136维的向量。

S302、针对每个通道的通道特征向量计算出对应的注意力权重。

关键帧检测设备在得到每个通道的通道特征向量时，就会针对这些通道特征向量进行注意力向量的计算。具体的，关键帧检测设备会将通道特征向量输入进通道注意力模型中，利用通道注意力模型的参数先计算出编码向量，然后针对编码向量进行归一化计算，所得到的归一化结果就是注意力权重。该过程如式(1)-式(2)所示：

e_i＝W_i·f_i+b_i (1)

其中，f_i为每个通道的通道特征向量，W_i为通道注意力模型的权重参数，b_i为通道注意力模型的偏置参数，e为编码向量，α_i为归一化结果。

S303、基于注意力权重，对每个通道的通道特征向量进行加权融合，得到融合特征向量。

接着，关键帧检测设备再利用注意力权重作为每个通道的通道特征向量在加权时的权重，并进行加权融合，就得到了融合特征向量。该过程可以如式(3)所示：

f_attn＝α_i·f_i (3)

其中，f_attn为注意力融合特征向量。

S304、针对融合特征向量进行特征图的还原，得到表征局部信息在第一视频帧中的位置的第一掩码区域。

最后，关键帧检测设备将融合特征向量还原为特征图，所得到的特征图就是第一掩码区域，以表明了后续处理中需要对哪些区域分配更多的注意力。

本申请实施例中，关键帧检测设备能够通过对第一融合特征进行注意力机制，确定出表征局部信息所在的位置的第一掩码区域，以便于后续根据第一掩码区域确定出在进行时序特征和空间特征的构建时需要着重关注的内容。

在本申请的一些实施例中，对待检测视频的第一视频帧和第二视频帧分别进行特征提取，得到第一视频帧的第一视频帧特征，以及第二视频帧的第二视频帧特征，即S101的具体实现过程，可以包括：S1011-S1014，如下：

S1011、将第一视频帧和第二视频帧分别进行分块，得到多个第一图像块和多个第二图像块。

本申请实施例中，为了对第一视频帧和第二视频帧内的文本进行更准确的定位，关键帧检测设备会分别对第一视频帧和第二视频帧进行分块，从而能够得到多个第一图像块和多个第二图像块，以便于后续基于更小的图像块进行时序特征和空间特征的构建，从而将相似度比较限定在更小的范围内，提升准确度。

可以理解的是，关键帧检测设备可以对第一视频帧和第二视频帧进行均匀切分，从而得到大小相同的多个第一视频帧，以及大小相同的多个第二视频帧。当然，关键帧检测设备还可以对第一视频帧和第二视频帧进行不均匀切分，从而得到大小各不相同的多个第一视频帧，以及大小各不相同的多个第二视频帧。

S1012、针对多个第一图像块分别进行卷积处理，得到多个第一图像块对应的多个第一卷积特征图。

S1013、针对多个第二图像块分别进行卷积处理，得到多个第二图像块对应的多个第二卷积特征图。

S1014、将多个第一卷积特征图，确定为第一视频帧特征，以及将多个第二卷积特征图，确定为第二视频帧特征。

关键帧检测设备针对每个第一图像块都进行卷积处理，以通过卷积提取出每个第一图像块所蕴含的图像特征，从而得到多个第一卷积特征图。接着，关键帧检测设备会将多个第一卷积特征图均确定为第一视频帧特征。类似的，关键帧检测设备会按照相同的方式，得到第二视频帧特征。

本申请实施例中，关键帧检测设备可以通过对第一视频帧和第二视频帧进行分块，并针对分块所得到的多个第一图像块和第二图像块进行卷积，得到第一视频帧特征和第二视频帧特征，以缩小进行时序特征和空间特征的构造的范围，从而更加准确地定位文本和比较相似度。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例是在服务器(关键帧检测设备)检测视频(待检测视频)文字关键帧(关键帧)的场景下实现的，其中，文字关键帧是指包含了不同的文字的关键帧，而不关注这些关键帧的图像内容。该过程可以通过关键帧检测模型来实现。

首先，服务器会将视频解码为连续的视频帧，然后取相邻的两个视频帧产生视频帧对，并输入到关键帧建模模块的输入。

图10是本申请实施例提供的关键帧检测模型的架构示意图。下面结合图10来说明对视频帧对的处理过程。

关键帧检测模型中包括了文本块掩码网络10-1和双流孪生网络10-2。在文本块掩码网络10-1中，选择Resnet18(残差网络)模型作为主干网络10-11，其包括了卷积层10-111-卷积层10-115五个卷积层。

主干网络10-11的输入尺寸为224*224。两个视频帧(第一视频帧和第二视频帧)在分别输入到主干网络10-11中之后，会被分割成为若干个56*56的图像块(多个第一图像块和多个第二图像块)。具体的，不同于对图像分割以进行像素级别的掩码预测，主干网络10-11即利用卷积层10-112的输出，从而得到64*56*56的特征图(第一视频帧特征和第二视频帧特征)。

为了定位出视频帧中的文本，关键帧检测模型会对主干网络10-11的输出进行小特征(512*7*7、256*14*14、128*28*28)的反卷积，以针对卷积层10-113至卷积层10-115的输出(第一待重构特征和第二待重构特征)进行更精准的重构，并利用重构出的图像(第一重构特征和第二重构特征)，和上一个卷积层的输出进行叠加，将叠加的结果统一输入到文本掩码网络10-1中的频道注意力模块10-12。

频道注意力模块10-12包括拼接层10-121、注意力网络层10-122和掩码输出层10-123。拼接层10-121用于将上述的叠加结果进行拼接，得到拼接特征图(第一融合特征和第二融合特征)，注意力网络层10-122用于对拼接特征图的64个通道进行加权(对各个通道的特征分量进行融合)，掩码输出层10-123用于输出56*56的文本掩码区域(第一掩码区域和第二掩码区域)。

注意力网络层10-122对拼接特征图的64个通道进行加权的过程为：将56*56的特征图拉成3136维的向量(通道特征向量)，从而产生64个3136的特征；将64个3136维的特征进行式(1)和式(2)的计算，得到64个特征的权重(注意力权重)，并按照式(3)利用权重进行加权求和生成最终的3136维特征(融合特征向量)，将该特征向量转换为文本掩码区域。

所得到的文本掩码区域，需要与主干网络10-1中的卷积层10-12所输出的64*56*56的特征图进行加权，然后输入至双流孪生网络10-2中。双流孪生网络10-2中包括时序信息子网络10-21和空间信息子网络10-22。时序信息子网络10-21对两个视频帧对应的加权后的特征图(第一输入特征和第二输入特征图)进行相减10-211，以获取相邻帧间的运动流信息(差异特征图)。而后，时序信息子网络将运动流信息输入到级联的卷积层中，即卷积层10-212至卷积层10-214中，以进行特征提取，并生成的64*65*65的特征图进行水平方向(预设方向)的池化操作，将64*56*56的特征图池化为64*56*1的特征图，然后针对64*56*1的特征图(池化特征图)按照水平方向进行拆分，得到56个64*1的特征图(N个子特征图)，然后将每个64*1的特征图进行最大池化或者平均池化，得到一个局部特征10-215(池化特征)，再利用56个特征图各自的局部特征拼接为一个时序fc(时序特征)。

空间信息子网络10-22中包括两条支线，每条支线都由卷积层10-221至卷积层10-223组成，这两条支线的各个卷积层用于对两个视频帧各自的加权后的的特征图进行特征提取。同时，空间信息子网络中还会对两个卷积层10-223所输出的64*56*56的特征图进行与时序信息子网络10-21相同的特征向量fc的生成处理过程，从而分别得到两个视频帧分别对应的特征向量fc(第一降维特征和第二降维特征)，并将这两个特征向量fc进行差分10-224(差分处理)，得到最终的空间fc(空间特征)。

接着，关键帧检测模型会结合时间fc和空间fc，利用全连接层(相似度判断模型)对两个视频帧的文本相似进行判断，以输出文本相似度(信息相似度)。

服务器在得到文本相似度之后，会基于该相似度确定文本关键帧。具体的，当文本相似度表示相邻视频帧具有较高的相似度时，就会将这两个视频帧合并为一帧(融合视频帧)，或者是舍弃掉一个视频帧，从而生成视频的文字关键帧(与局部信息对应的关键帧)。

需要说明的是，图10中的文本块掩码网络10-1需要通过多任务损失函数进行三种不同任务的联合训练得到。假设训练时的输入图像为x₁和x₂，文本块位置是否含有文本的真值y₁和y₂，两个图像的相似度真值为y(x₁,x₂)。那么，文本块掩码网络10-1训练时的损失函数可以如下式所示：

其中，

为文本掩码网络的损失函数，L₂(·)为L2范数，

为文本块模块的输出，p(x₁,x₂)为两幅图像相似度的概率。α为文本块模块的损失权重，设置为1，β为相似度计算模块的损失权重，设置为1。

在文本块掩码网络10-1的训练过程中，使用Adam优化器对网络进行训练，起始的学习率设定为0.0005，每30个epoch降低为原来的0.1。批处理的大小设置为64，动量和权重衰减分别设置为0.9和0.0001。

通过上述方式，能够利用相邻视频帧之间的时间信息，以及相邻视频帧的空间信息，更加准确地度量相邻视频帧中的文本的相似度，并且，能够精准地定位出文本的位置，辅助提高文本相似度的准确率，最终使得文字关键帧的检测准确率达到更高水平。

下面继续说明本申请实施例提供的关键帧检测装置255的实施为软件模块的示例性结构，在一些实施例中，如图6所示，存储在存储器250的关键帧检测装置255中的软件模块可以包括：

特征提取模块2551，用于对待检测视频的第一视频帧和第二视频帧分别进行特征提取，得到所述第一视频帧的第一视频帧特征，以及所述第二视频帧的第二视频帧特征；

特征构建模块2552，用于基于所述第一视频帧特征和所述第二视频帧特征，构建出时序特征和空间特征；其中，所述时序特征表征了待检测视频中的局部信息在所述第一视频帧和所述第二视频帧之间的位置变化，所述空间特征表征了所述局部信息在所述第一视频帧与所述第二视频帧中的外形；

相似度确定模块2553，用于利用所述时序特征和所述空间特征，确定出所述第一视频帧和所述第二视频帧之间的信息相似度；

关键帧确定模块2554，用于依据所述信息相似度，确定出所述待检测视频中与所述局部信息对应的关键帧。

在本申请的一些实施例中，所述特征构建模块2552，还用于依据所述第一视频帧特征，确定出表征所述局部信息在所述第一视频帧中的位置的第一掩码区域，以及依据所述第二视频帧特征，确定出表征所述局部信息在所述第二视频帧中的位置的第二掩码区域；将所述第一掩码区域和所述第一视频帧特征融合为所述第一视频帧对应的第一输入特征，以及将所述第二掩码区域和所述第二视频帧特征融合为所述第二视频帧对应的第二输入特征；基于所述第一输入特征和所述第二输入特征，确定出所述局部信息的所述时序特征和所述空间特征。

在本申请的一些实施例中，所述特征构建模块2552，还用于对所述第一输入特征和所述第二输入特征做差，得到差异特征；通过对所述差异特征进行降维，得到所述时序特征；对所述第一输入特征进行降维，得到第一降维特征，以及对所述第二输入特征进行降维，得到第二降维特征；将所述第一降维特征和所述第二降维特征进行差分处理，得到所述空间特征。

在本申请的一些实施例中，所述差异特征包括：差异特征图；所述特征构建模块2552，还用于针对所述差异特征图在预设方向进行池化操作，得到池化特征图；按照所述预设方向对所述池化特征图进行拆分，得到N个子特征图；其中，N为所述池化特征图在所述预设方向上的长度，N大于等于1；针对N个所述子特征图分别进行池化操作，得到N个所述子特征图各自对应的池化特征；利用N个所述子特征图各自对应的池化特征，拼接成所述时序特征。

在本申请的一些实施例中，所述相似度确定模块2553，还用于将所述时序特征和所述空间特征进行融合，得到时空融合特征；通过相似度判断模型对所述时空融合特征进行相似度识别，得到所述第一视频帧和所述第二视频帧之间的文本相似度。

在本申请的一些实施例中，所述相似度确定模块2553，还用于当所述文本相似度小于相似度阈值时，将所述第一视频帧和所述第二视频帧均确定为所述待检测视频中与所述局部信息对应的所述关键帧；当所述文本相似度大于等于所述相似度阈值时，将所述第一视频帧或所述第二视频帧确定为所述待检测视频中与所述局部信息对应的所述关键帧。

在本申请的一些实施例中，所述相似度确定模块2553，还用于当所述文本相似度大于等于所述相似度阈值时，对所述第一视频帧和所述第二视频帧进行融合，得到融合视频帧；将所述融合视频帧确定为所述待检测视频中与所述局部信息对应的所述关键帧。

在本申请的一些实施例中，所述特征构建模块2552，还用于对所述第一视频帧特征进行特征抽取，得到第一待重构特征；将所述第一待重构特征进行升维重构，得到第一重构特征；依据所述第一视频帧特征和所述第一重构特征，融合出第一融合特征；针对所述第一融合特征中各个通道的特征分量进行融合，得到表征所述局部信息在所述第一视频帧中的位置的所述第一掩码区域。

在本申请的一些实施例中，所述第一融合特征包括：第一融合特征图，所述特征分量包括：子融合特征图；所述特征构建模块2552，还用于依据所述第一融合特征图的每个所述通道的子融合特征图，生成每个所述通道的通道特征向量；针对每个所述通道的所述通道特征向量计算出对应的注意力权重；基于所述注意力权重，对每个所述通道的所述通道特征向量进行加权融合，得到融合特征向量；针对所述融合特征向量进行特征图的还原，得到表征所述局部信息在所述第一视频帧中的位置的所述第一掩码区域。

在本申请的一些实施例中，所述特征提取模块2551，还用于将所述第一视频帧和所述第二视频帧分别进行分块，得到多个第一图像块和多个第二图像块；针对多个所述第一图像块分别进行卷积处理，得到多个所述第一图像块对应的多个第一卷积特征图；针对多个所述第二图像块分别进行卷积处理，得到多个所述第二图像块对应的多个第二卷积特征图；将所述多个第一卷积特征图，确定为所述第一视频帧特征，以及将所述多个第二卷积特征图，确定为所述第二视频帧特征。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备(即上述的关键帧检测设备)的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的关键帧检测方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的关键帧检测方法，例如，如图7示出的关键帧检测方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备(即上文所述的关键帧检测设备)上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例，关键帧检测设备会同时确定出表征局部信息在第一视频帧和第二视频帧之间的位置信息的时序特征，以及表征局部信息在第一视频帧和第二视频帧中的外形的空间特征，并进一步结合位置信息和外形两个维度上的特征得出信息相似度，使得确定相似度时所考虑的特征更加全面，提高了信息相似度的判断准确度，最终提升了关键帧检测的准确度；以及通过对第一待重构特征的升维重构，能够更加有效地定位出视频帧中的局部信息，从而局部信息的位置表征更加准确，以进一步提高相似度计算时的准确度。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种关键帧检测方法，其特征在于，所述关键帧检测方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一视频帧特征和所述第二视频帧特征，构建出时序特征和空间特征，包括：

依据所述第一视频帧特征，确定出表征所述局部信息在所述第一视频帧中的位置的第一掩码区域，以及依据所述第二视频帧特征，确定出表征所述局部信息在所述第二视频帧中的位置的第二掩码区域；

将所述第一掩码区域和所述第一视频帧特征融合为所述第一视频帧对应的第一输入特征，以及将所述第二掩码区域和所述第二视频帧特征融合为所述第二视频帧对应的第二输入特征；

基于所述第一输入特征和所述第二输入特征，确定出所述局部信息的所述时序特征和所述空间特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一输入特征和所述第二输入特征，确定出所述局部信息的所述时序特征和所述空间特征，包括：

对所述第一输入特征和所述第二输入特征做差，得到差异特征；

通过对所述差异特征进行降维，得到所述时序特征；

对所述第一输入特征进行降维，得到第一降维特征，以及对所述第二输入特征进行降维，得到第二降维特征；

将所述第一降维特征和所述第二降维特征进行差分处理，得到所述空间特征。

4.根据权利要求3所述的方法，其特征在于，所述差异特征包括：差异特征图；所述通过对所述差异特征进行降维，得到所述时序特征，包括：

针对所述差异特征图在预设方向进行池化操作，得到池化特征图；

按照所述预设方向对所述池化特征图进行拆分，得到N个子特征图；其中，N为所述池化特征图在所述预设方向上的长度，N大于等于1；

针对N个所述子特征图分别进行池化操作，得到N个所述子特征图各自对应的池化特征；

利用N个所述子特征图各自对应的池化特征，拼接成所述时序特征。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述信息相似度包括：文本相似度；所述利用所述时序特征和所述空间特征，确定出所述第一视频帧和所述第二视频帧之间的信息相似度，包括：

将所述时序特征和所述空间特征进行融合，得到时空融合特征；

通过相似度判断模型对所述时空融合特征进行相似度识别，得到所述第一视频帧和所述第二视频帧之间的文本相似度。

6.根据权利要求5所述的方法，其特征在于，所述依据所述信息相似度，确定出所述待检测视频中与所述局部信息对应的关键帧，包括：

当所述文本相似度小于相似度阈值时，将所述第一视频帧和所述第二视频帧均确定为所述待检测视频中与所述局部信息对应的所述关键帧；

当所述文本相似度大于等于所述相似度阈值时，将所述第一视频帧或所述第二视频帧确定为所述待检测视频中与所述局部信息对应的所述关键帧。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

当所述文本相似度大于等于所述相似度阈值时，对所述第一视频帧和所述第二视频帧进行融合，得到融合视频帧；

将所述融合视频帧确定为所述待检测视频中与所述局部信息对应的所述关键帧。

8.根据权利要求2所述的方法，其特征在于，所述依据所述第一视频帧特征，确定出表征所述局部信息在所述第一视频帧中的位置的第一掩码区域，包括：

对所述第一视频帧特征进行特征抽取，得到第一待重构特征；

将所述第一待重构特征进行升维重构，得到第一重构特征；

依据所述第一视频帧特征和所述第一重构特征，融合出第一融合特征；

针对所述第一融合特征中各个通道的特征分量进行融合，得到表征所述局部信息在所述第一视频帧中的位置的所述第一掩码区域。

9.根据权利要求8所述的方法，其特征在于，所述第一融合特征包括：第一融合特征图，所述特征分量包括：子融合特征图；所述针对所述第一融合特征中各个通道的特征分量进行融合，得到表征所述局部信息在所述第一视频帧中的位置的所述第一掩码区域，包括：

依据所述第一融合特征图的每个所述通道的子融合特征图，生成每个所述通道的通道特征向量；

针对每个所述通道的所述通道特征向量计算出对应的注意力权重；

基于所述注意力权重，对每个所述通道的所述通道特征向量进行加权融合，得到融合特征向量；

针对所述融合特征向量进行特征图的还原，得到表征所述局部信息在所述第一视频帧中的位置的所述第一掩码区域。

10.根据权利要求1至4、8或9任一项所述的方法，其特征在于，所述对待检测视频的第一视频帧和第二视频帧分别进行特征提取，得到所述第一视频帧的第一视频帧特征，以及所述第二视频帧的第二视频帧特征，包括：

将所述第一视频帧和所述第二视频帧分别进行分块，得到多个第一图像块和多个第二图像块；

针对多个所述第一图像块分别进行卷积处理，得到多个所述第一图像块对应的多个第一卷积特征图；

针对多个所述第二图像块分别进行卷积处理，得到多个所述第二图像块对应的多个第二卷积特征图；

将所述多个第一卷积特征图，确定为所述第一视频帧特征，以及将所述多个第二卷积特征图，确定为所述第二视频帧特征。

11.一种关键帧检测装置，其特征在于，所述关键帧检测装置包括：

12.一种关键帧检测设备，其特征在于，所述关键帧检测设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10任一项所述的关键帧检测方法。

13.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至10任一项所述的关键帧检测方法。

14.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1至10任一项所述的关键帧检测方法。