CN111782874B

CN111782874B - 视频检索方法、装置、电子设备和存储介质

Info

Publication number: CN111782874B
Application number: CN202010620349.0A
Authority: CN
Inventors: 贾若然; 谭昶; 李梓赫; 傅云翔
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-01-17
Anticipated expiration: 2040-06-30
Also published as: CN111782874A

Abstract

本发明实施例提供一种视频检索方法、装置、电子设备和存储介质，其中该方法包括：确定待检索视频；对所述待检索视频中所有图像帧进行聚类，得到多个图像簇，从每一图像簇中分别选取每一图像簇的关键帧；基于每一关键帧，确定所述待检索视频的视频检索结果。本发明实施例提供的方法、装置、电子设备和存储介质，通过对待检索视频中所有图像帧进行聚类，得到多个图像簇，从每一图像簇中分别选取每一图像簇的关键帧，进而确定待检索视频的视频检索结果，避免了对待检索视频中所有的图像帧进行检索匹配占用大量计算资源，在减小数据计算量和算法复杂度、提高视频检索效率的同时，保证了视频检索的全面性和准确性。

Description

视频检索方法、装置、电子设备和存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频检索方法、装置、电子设备和存储介质。

背景技术

随着移动互联网的发展和智能终端的普及，视频已经成为重要的信息传播媒介。针对视频的同源性检测，对于视频的版权保护具有重要意义。

然而，由于视频本身的数据量极大，实现视频的特征提取和特征匹配需要耗用极大的计算资源，目前针对视频同源性检测的检索方法大都受到计算量的困扰，检索效率极低。

发明内容

本发明实施例提供一种视频检索方法、装置、电子设备和存储介质，用以解决现有的视频检索方法受限于计算量，检索效率低下的问题。

第一方面，本发明实施例提供一种视频检索方法，包括：

确定待检索视频；

对所述待检索视频中所有图像帧进行聚类，得到多个图像簇，从每一图像簇中分别选取每一图像簇的关键帧；

基于每一关键帧，确定所述待检索视频的视频检索结果。

优选地，所述对所述待检索视频中所有图像帧进行聚类，得到多个图像簇，具体包括：

若所述待检索视频中当前图像帧的图像特征与任一图像簇的聚类中心特征之间的相似度大于等于预设相似度阈值，则将所述当前图像帧加入到最大相似度对应的图像簇中；

否则，创建新的图像簇，将所述当前图像帧加入到所述新的图像簇中；

将所述待检索视频中的下一图像帧更新为当前图像帧。

优选地，所述基于每一关键帧，确定所述待检索视频的视频检索结果，具体包括：

确定任一关键帧的描述特征；

基于所述任一关键帧的描述特征，在预设视频库中进行检索，得到所述任一关键帧的图像帧检索结果；

基于每一关键帧的图像帧检索结果，确定所述待检索视频的视频检索结果。

优选地，所述确定任一关键帧的描述特征，具体包括：

将任一关键帧输入至描述特征提取模型的图像特征提取层，得到所述图像特征提取层输出的图像特征；

将所述图像特征输入至所述描述特征提取模型的多个尺度下的区域特征提取层，分别得到每一尺度下的区域特征提取层输出的对应尺度下若干个采样区域的区域特征；

将每一尺度下每一采样区域的区域特征输入至所述描述特征提取模型的尺度融合层，得到所述尺度融合层输出的描述特征。

优选地，所述将所述图像特征输入至所述描述特征提取模型的多个尺度下的区域特征提取层，分别得到每一尺度下的区域特征提取层输出的对应尺度下若干个采样区域的区域特征，具体包括：

将所述图像特征输入至任一尺度下的区域特征提取层，由所述任一尺度下的区域特征提取层基于所述任一尺度下的区域大小对所述图像特征中每一通道的通道特征进行采样，得到所述任一尺度下的区域特征提取层输出的若干个采样区域在每一通道的通道区域特征，作为所述任一尺度下每一采样区域的区域特征。

优选地，所述基于每一关键帧的图像帧检索结果，确定所述待检索视频的视频检索结果，具体包括：

基于每一关键帧的图像帧检索结果，确定所述待检索视频的若干个候选匹配视频，以及所述待检索视频与每一候选匹配视频之间的若干个候选帧匹配对；

基于所述待检索视频与任一候选匹配视频之间的若干个候选帧匹配对，确定所述任一候选匹配视频的匹配得分；

基于每一候选匹配视频的匹配得分，确定所述待检索视频的视频检索结果。

优选地，所述基于所述待检索视频与任一候选匹配视频之间的若干个候选帧匹配对，确定所述任一候选匹配视频的匹配得分，之前还包括：

若所述待检索视频与任一候选匹配视频之间的任一候选帧匹配对的图像帧时差不处于预设时差区间内，则删除所述任一候选帧匹配对；所述预设时差区间是基于所述待检索视频与所述任一候选匹配视频之间的每一候选帧匹配对的图像帧时差确定的。

第二方面，本发明实施例提供一种视频检索装置，包括：

视频确定单元，用于确定待检索视频；

关键帧提取单元，用于对所述待检索视频中所有图像帧进行聚类，得到多个图像簇，从每一图像簇中分别选取每一图像簇的关键帧；

视频检索单元，用于基于每一关键帧，确定所述待检索视频的视频检索结果。

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑命令，以执行如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种视频检索方法、装置、电子设备和存储介质，通过对待检索视频中所有图像帧进行聚类，得到多个图像簇，从每一图像簇中分别选取每一图像簇的关键帧，进而确定待检索视频的视频检索结果，避免了对待检索视频中所有的图像帧进行检索匹配占用大量计算资源，在减小数据计算量和算法复杂度、提高视频检索效率的同时，保证了视频检索的全面性和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频检索方法的流程示意图；

图2为本发明实施例提供的图像聚类方法的流程示意图；

图3为本发明实施例提供的基于关键帧的检索方法的流程示意图；

图4为本发明实施例提供的描述特征提取方法的流程示意图；

图5为本发明实施例提供的多尺度区域特征提取方法的采样示意图；

图6为本发明实施例提供的视频检索结果确定方法的流程示意图；

图7为本发明另一实施例提供的视频检索方法的流程示意图；

图8为本发明实施例提供的视频检索装置的结构示意图；

图9为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，针对视频的同源性检测通常是通过对待检索视频中的每帧图像进行检索匹配得到的，但是视频本身的数据量极大，以时长为1个小时帧率为25的视频为例，其中包含了60*60*25＝90000帧图像。因此，实现视频的特征提取和特征匹配需要耗用极大的计算资源，导致视频检索方法受到计算量的困扰，检索效率极低。

针对上述问题，本发明实施例提供了一种视频检索方法。图1为本发明实施例提供的视频检索方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待检索视频。

具体地，待检索视频即需要进行视频检索的视频，进一步地，待检索视频可以是需要进行同源性检测的视频。此处，同源性检测可以通过判断两个视频中的一个视频是否是在另一个视频的基础上进行视频变换得到的，视频变换操作可以是插入模板、降低质量、剪裁和混剪等操作中的一种或多种。

步骤120，对待检索视频中所有图像帧进行聚类，得到多个图像簇，从每一图像簇中分别选取每一图像簇的关键帧。

具体地，考虑到目前的视频检索方式通常是针对待检索视频中的每帧图像进行逐帧检索，需要耗用大量的计算资源。而事实上为了实现清晰稳定的播放效果，待检索视频一般都保持高帧率，且待检索视频中大部分的图像帧的内容都是高度相似的。因此，本发明实施例从待检索视频的所有图像帧中抽取若干个具有代表性的图像帧作为关键帧用于视频检索，从而减小视频检索的计算量，提高视频检索效率。

本发明实施例中，关键帧抽取是通过对待检索视频中的所有图像帧进行聚类得到的，此处无监督的聚类操作使得待检索视频中的所有图像帧自然分为多个图像簇，每个图像簇中均包含若干个高度相似的图像帧。需要说明的是，所有图像帧的聚类可以是基于所有图像帧在颜色、纹理、形状等各个维度上的图像特征之间的相似度实现的，由此得到的各个图像簇内的图像帧，对应在各个维度上高度相似。

在此基础上，针对任一图像簇，从该图像簇的多个图像帧中选取一个图像帧作为该图像簇的关键帧，用以代表该图像簇中的所有图像帧。此处，关键帧可以是该图像簇中的任一图像帧，也可以是该图像簇中与该图像簇的聚类中心距离最近的图像帧，本发明实施例对此不作具体限定。

步骤130，基于每一关键帧，确定待检索视频的视频检索结果。

具体地，在得到待检索视频的每一关键帧，可以基于每一关键帧进行视频检索，从而得到待检索视频的视频检索结果。此处，视频检索结果可以包含若干个与待检索视频相似的视频，例如疑似与待检索视频同源的视频。此处，可以分别将每一关键帧与视频库中的视频的关键帧进行匹配，得到每一关键帧的匹配结果，进而结合每一关键帧的匹配结果确定视频检索结果；也可以将所有关键帧分别与视频库中每个视频的关键帧进行匹配，得到待检索视频针对于视频库中每个视频的匹配结果，进而得到视频检索结果。需要说明的是，视频库中视频的关键帧可以是基于步骤120的方法得到的，此处不再赘述。

由于对所有图像帧进行聚类得到的多个图像簇能够无遗漏地表征待检索视频中各种类型的图像帧，而每个图像簇的关键帧可以代表性地表征每个图像簇中图像帧的特点，因此保证了视频检索的全面性和准确性。

本发明实施例提供的方法，通过对待检索视频中所有图像帧进行聚类，得到多个图像簇，从每一图像簇中分别选取每一图像簇的关键帧，进而确定待检索视频的视频检索结果，避免了对待检索视频中所有的图像帧进行检索匹配占用大量计算资源，在减小数据计算量和算法复杂度、提高视频检索效率的同时，保证了视频检索的全面性和准确性。

常规的聚类算法，例如K-means聚类算法，在算法执行之前需要预先设定聚类中心的数量，即最终得到的图像簇的数量。然而，针对于待检索视频，事先无法获知待检索视频中包含的图像帧的类别数，如果预估类别数进行聚类，很可能会影响聚类结果的准确性。基于上述任一实施例，本发明实施例提供一种自适应的聚类方法。图2为本发明实施例提供的图像聚类方法的流程示意图，如图2所示，步骤120中，对待检索视频中所有图像帧进行聚类，得到多个图像簇，具体包括：

步骤121，若待检索视频中当前图像帧的图像特征与任一图像簇的聚类中心特征之间的相似度大于等于预设相似度阈值，则将当前图像帧加入到最大相似度对应的图像簇中；否则，创建新的图像簇，将当前图像帧加入到新的图像簇中。

步骤122，将待检索视频中的下一图像帧更新为当前图像帧。

具体地，针对待检索视频中的所有图像帧进行聚类时，需要对待检索视频中的每个图像帧逐帧执行步骤121，从而保证聚类可以覆盖所有图像帧，使得聚类结果真实可靠，而不存在漏帧的问题，由此提取得到数量足够且准确的关键帧。此处，逐帧执行可以是按照图像帧在待检索视频中的时间戳的先后顺序执行，也可以是随机乱序执行，本发明实施例对此不作具体限定。

步骤121中，当前图像帧的图像特征与任一图像簇的聚类中心特征之间的相似度可以是当前图像帧的图像特征与该图像簇的聚类中心所反映的图像特征之间的相似度，具体用于表征当前图像帧与该图像簇之间的相似程度。任一图像簇的聚类中心特征是基于该图像簇中每一图像帧的图像特征确定的，例如可以表示为该图像簇中每一图像帧的图像特征的均值，本发明实施例对此不作具体限定。预设相似度阈值为预先设定的当前图像帧属于该图像簇时，当前图像帧的图像特征与该图像簇的聚类中心特征之间的最小相似度。

在聚类过程中，针对当前图像帧，计算当前图像帧的图像特征和前次聚类得到的每个图像簇的聚类中心特征之间的相似度，判断是否存在当前图像帧的图像特征和任一图像簇的聚类中心特征之间的相似度大于等于预设相似度阈值：

如果当前图像帧的图像特征和任一图像簇的聚类中心特征之间的相似度大于等于预设相似度阈值，则说明当前图像帧的图像特征与该图像簇的聚类中心特征之间距离比较接近。此时，从多个相似度中选取最大相似度对应的图像簇，将当前图像帧加入到最大相似度对应的图像簇中；

如果当前图像帧的图像特征和每个图像簇的聚类中心特征之间的相似度均小于预设相似度阈值，则说明当前图像帧的图像特征与每个图像簇的聚类中心特征之间的距离都比较远，创建新的图像簇，并将当前图像帧加入到新的图像簇中。

需要说明的是，在首次执行步骤121进行聚类时，当前图像帧即首个图像帧，此时不存在图像簇，直接创建新的图像簇，并将首个图像帧加入到新的图像簇中。

本发明实施例提供的方法，逐帧计算当前图像帧的图像特征与前次聚类得到的每一图像簇的聚类中心特征之间的相似度，进而实现图像帧的逐帧聚类，聚类之前无需预先设定聚类中心数量，适用于各种时长、各种内容的待检索视频，能够有效提高关键帧抽取的准确性，进而提高视频检索的准确性。

基于上述任一实施例，步骤120中，对待检索视频中所有图像帧进行聚类，具体包括：基于所有图像帧的颜色特征，对所有图像帧进行聚类。

此处，图像帧的颜色特征即图像特征的一种。颜色特征可以是在RGB(RGB colormode)、HSV(Hue Saturation Value)等颜色空间的特征。例如，待检索视频中图像帧的各个像素点的颜色是在RGB颜色空间表示的，为了反映更加直观的颜色特征，可以将图像帧的颜色空间从RGB转换至HSV，随后在HSV颜色空间进行归一化处理，并将H划分为12类，将S划分为5类，将V划分为5类，然后分别计算每类的颜色直方图作为图像帧的颜色特征。

基于上述任一实施例，图3为本发明实施例提供的基于关键帧的检索方法的流程示意图，如图3所示，步骤130具体包括：

步骤131，确定任一关键帧的描述特征。

具体地，针对任一图像簇的关键帧，可以对该关键帧进行特征抽取，从而得到既能够反映关键帧的整体信息，又能够反映关键帧的细节信息的描述特征。

步骤132，基于该关键帧的描述特征，在预设视频库中进行检索，得到该关键帧的图像帧检索结果。

具体地，预设视频库即预先设定的视频库，预设视频库中可以预先存储若干个视频，例如在通过视频的同源性检测进行版权保护时，预设视频库内存在的视频可以是有版权的视频。可以预先抽取预设视频库内每个视频的关键帧并提取其描述特征。

在基于待检索视频的关键帧进行检索时，可以将待检索视频的关键帧的描述特征与预设视频库内各个视频的各个关键帧的描述特征进行匹配，从而得到待检索视频的关键帧的图像帧检索结果。此处的图像帧检索结果可以包含待检索视频的关键帧匹配到的预设视频库内视频的关键帧。进一步地，为了提高检索速度，优化检索效果，可以采用近似最近邻检索算法(Approximate Nearest Neighbor，ANN)进行检索。

步骤133，基于每一关键帧的图像帧检索结果，确定待检索视频的视频检索结果。

具体地，在针对待检索视频帧的各个关键帧分别进行检索后，即可得到各个关键帧的图像帧检索结果。可以结合各个关键帧的图像帧检索结果，确定待检索视频的视频检索结果。

常规的针对图像帧进行特征抽取的方法，通常是通过卷积、池化、全连接等操作得到一个一维向量来表征图像帧的特征，但是通过上述操作进行特征抽取忽略了图像帧中的细节信息，会直接影响后续视频检索的准确性。基于上述任一实施例，图4为本发明实施例提供的描述特征提取方法的流程示意图，如图4所示，步骤131具体包括：

步骤1311，将任一关键帧输入至描述特征提取模型的图像特征提取层，得到图像特征提取层输出的图像特征。

步骤1312，将图像特征输入至描述特征提取模型的多个尺度下的区域特征提取层，分别得到每一尺度下的区域特征提取层输出的对应尺度下若干个采样区域的区域特征；

步骤1313，将每一尺度下每一采样区域的区域特征输入至描述特征提取模型的尺度融合层，得到尺度融合层输出的描述特征。

具体地，关键帧的描述特征可以通过描述特征提取模型提取得到，描述特征提取模型具体包括图像特征提取层、多个尺度下的区域特征提取层以及尺度融合层。

其中，图像特征提取层用于针对输入的关键帧进行图像特征提取，图像特征提取层可以由卷积层和池化层构成，通过卷积和池化操作对关键帧进行图像特征抽取和降维。由此得到的图像特征可以表示为三维矩阵W*H*C，其中W、H和C分别表示宽、高和通道数。图像特征提取层可以采用在imageNet数据集上预训练过的分类网络的部分实现，图像特征提取层具体可以采用包括VGG、resnet和densenet等经典网络结构。

描述特征提取模型中包含多个尺度下的区域特征提取层，此处每个尺度分别对应一个区域特征提取层，不同尺度对应于不同的区域大小，任一尺度下的区域特征提取层通过该尺度的区域大小对该尺度下的图像特征进行区域特征采样，得到该尺度下每个采样区域的区域特征。此处，不同尺度下的采样区域的区域特征，能够体现出关键帧在不同尺度下的信息，尺度越大，则对应的区域特征越能够反映对关键帧整体信息的描述，尺度越小，则对应的区域特征越能够反映对关键帧细节信息的描述。

尺度融合层用于对不同尺度下各个采样区域的区域特征进行融合，输出关键帧的描述特征。此处，针对不同尺度下不同采样区域的区域特征的融合，可以通过对不同尺度下不同采用区域的区域特征进行叠加或者拼接等操作实现，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过多个尺度下的区域特征提取层对图像特征进行不同尺度不同位置的区域特征提取，进而得到关键帧的描述特征，提高了描述特征对于关键帧的整体信息和细节信息的描述能力，有助于提高视频检索的准确性。

基于上述任一实施例，图5为本发明实施例提供的多尺度区域特征提取方法的采样示意图，如图5所示，步骤1312中，假设存在L个不同尺度的区域特征提取层，尺度越大，则对应的区域大小越大。图5分别示出了尺度l为1、2和3时，针对区域特征进行采样的示意图，其中尺度为1的区域采样可以体现关键帧的整体信息，尺度为2和3的区域采样可以体现关键帧的细节信息，将不同尺度下的区域特征进行结合得到的描述特征，即可同时反映关键帧的整体信息和细节信息。

图5中的填充有斜线或者边框为虚线的方框用于表示采样区域，同一尺度的两个采样区域之间的重叠率可以预先进行设置，从而在尽可能多地提取局部特征的同时，尽量减小计算量。例如，可以将采样区域之间的重叠率设置为40％。针对其中任一尺度l，其对应的区域大小和采样数量可以通过如下公式计算得到：

W_l＝H_l＝2*Min(W,H)/(l+1)

NUM_l＝l*(l+1)

式中，W和H分别为图像特征的宽和高，W_l和H_l分别为尺度l对应的采样区域的宽和高，NUM_l为尺度l下采样区域针对图像特征的一个通道进行采样的采样区域数量。

基于上述任一实施例，步骤1312具体包括：将图像特征输入至任一尺度下的区域特征提取层，由该尺度下的区域特征提取层基于该尺度下的区域大小对图像特征中每个通道的通道特征进行采样，得到该尺度下的区域特征提取层输出的若干个采样区域在每个通道的通道区域特征，作为该尺度下每一采样区域的区域特征。

具体地，图像特征由多个通道的通道特征构成，针对任一通道，其通道特征为二维矩阵W*H，其中W和H分别表示宽和高。

针对于任一尺度下的区域特征提取层，可以由区域特征提取层基于该尺度下的区域大小，分别对图像特征中各个通道的通道特征进行采样，从而得到若干个采样区域，以及每个采样区域针对每个通道均得到对应的通道区域特征，以表征每个采样区域下每个通道的信息。每个采样区域在每个通道的通道区域特征即构成关键帧在对应尺度下该采样区域的区域特征。

例如，对于尺度为l的区域特征提取层中的一个采样区域为R_x，对于图像特征的每个通道d(1≤d≤C)均会产生一个大小位置与R_x相同的通道区域，从通道d的采样区域R_x中找到其中最大的激活值f(R_x,d)，以最大激活值f(R_x,d)代表通道d的采样区域R_x的通道区域特征。此处，直接通过最大激活值表征通道区域特征，有效降低了特征抽取的计算量，提高了特征抽取效率。

相应地，对于尺度为l的区域特征提取层，其输出的采样区域R_x的在每个通道的通道区域特征f(R_x)可以表示为：

f(R_x)＝[f(R_x,1),…,f(R_x,d),…,f(R_x,C)]

由此可知，区域特征f(R_x)是一个1*C的一维向量。

为了简化算法复杂度，可以在此基础上对各个尺度下各个采样区域的区域特征进行降维，从而将区域特征的维度降低为1*K，其中K<C。例如可以通过L2-normalize和PCA-whitening等算法进行降维。

相应地，将每一采样区域的区域特征输入至尺度融合层，得到尺度融合层输出的描述特征f，具体可以表示为如下公式：

式中，X为所有尺度的采样区域的总数，f是通过对所有采样区域的区域特征进行叠加得到的。由此得到关键帧的描述特征f为1*K的一维向量。

基于上述任一实施例，图6为本发明实施例提供的视频检索结果确定方法的流程示意图，如图6所示，步骤133具体包括：

步骤1331，基于每一关键帧的图像帧检索结果，确定待检索视频的若干个候选匹配视频，以及待检索视频与每一候选匹配视频之间的若干个候选帧匹配对。

具体地，基于每一关键帧的图像帧检索结果，即可确定预设视频库中与每一关键帧最接近的图像帧所对应的视频，并将上述视频作为待检索视频的候选匹配视频。

针对待检索视频及其对应的任一候选匹配视频，两者之间的候选帧匹配对是基于关键帧的图像帧检索结果确定的，由两者各自包含的相互匹配的关键帧构成的关键帧对。

例如，待检索视频Q中存在N个关键帧，其中M个关键帧在预设视频库中匹配到了候选匹配视频V的T个关键帧，此处M≤N，T≥M。由此得到待检索视频Q与候选匹配视频V之间的T个候选帧匹配对，分别记录为(Q_i,V_j,D_ij)，其中Q_i表示待检索视频Q的第i个图像帧，V_j表示候选匹配视频V的第j个帧图像，D_ij表示Q_i和V_j两者的描述特征之间的距离。

步骤1332，基于待检索视频与任一候选匹配视频之间的若干个候选帧匹配对，确定该候选匹配视频的匹配得分。

具体地，可以通过分析待检索视频与任一候选匹配视频之间候选帧匹配对的相似程度、候选帧匹配对数量等信息，确定任一候选匹配视频的匹配得分。例如，候选帧匹配对中两个图像帧的描述特征之间的距离越小，则候选帧匹配对的相似程度越高，对应候选匹配视频的匹配得分越高，又例如候选帧匹配对的数量和待检索视频中关键帧的数量之间的比值越高，则对应候选匹配视频的匹配得分越高。

例如，任一候选匹配视频V的匹配得分Mark_b可以表示为：

Mark_v＝Sum(S_ij)+(N-T)*Min(S_ij)

式中，Sum(S_ij)为待检索视频Q和候选匹配视频V中每个候选帧匹配对的相似度S_ij的总和，用于表征在候选匹配视频V中检索得到相匹配的关键帧针对候选匹配视频V的得分；(N-T)是待检索视频Q中未在候选匹配视频V检索得到相匹配的关键帧的数量，Min(S_ij)为候选帧匹配对的相似度S_ij的最小值，(N-T)*Min(S_ij)用于表征在候选匹配视频V中未能检索得到相匹配的关键帧针对候选匹配视频V的得分。

需要说明的是，上式中候选帧匹配对的相似度S_ij可以基于候选帧匹配对中两个图像帧的描述特征之间的距离D_ij得到，D_ij越小则S_ij越大。

步骤1333，基于每一候选匹配视频的匹配得分，确定待检索视频的视频检索结果。

具体地，在得到每一候选匹配视频的匹配得分后，可以根据匹配得分的高低对每一候选匹配视频进行排序，从中选取前若干个候选匹配视频作为待检索视频的视频检索结果。

本发明实施例提供的方法，基于待检索视频与任一候选匹配视频之间的若干个候选帧匹配对，对候选匹配视频进行评分，并基于得分确定视频检索结果，进而提高了视频检索结果的准确性。

在实际操作时，待检索视频与任一候选匹配视频之间的候选帧匹配对中可能存在错误的匹配对，如果未能在确定该候选匹配视频的匹配得分之前滤除错误的匹配对，那么由此得到的匹配得分是虚高的，会对后续视频检索结果的确定产生干扰，影响视频检索结果的准确性。对此，基于上述任一实施例，步骤1331和步骤1332之间还包括：若待检索视频与任一候选匹配视频之间的任一候选帧匹配对的图像帧时差不处于预设时差区间内，则删除该候选帧匹配对；预设时差区间是基于待检索视频与该候选匹配视频之间的每一候选帧匹配对的图像帧时差确定的。

假设待检索视频Q与候选匹配视频V之间的T个候选帧匹配对，可以计算每个候选帧匹配对中的两个图像帧之间的时差，作为每个候选帧匹配对的图像帧时差。例如，候选帧匹配对(Q_i,V_j,D_ij)中，Q_i在待检索视频Q中的时间戳为T_Qi，V_j在待检索视频V中的时间戳为T_Vj，图像帧时差为|T_Qi-T_Vj|。

考虑到待检索视频Q与候选匹配视频V之间的相似，可能具体体现为待检索视频Q中的一段视频与候选匹配视频V中的一段视频类似或一致，此时两者相匹配的候选帧匹配对的图像帧时差应当接近于一致。因此，可以基于待检索视频Q与候选匹配视频V之间的每一候选帧匹配对的图像帧时差，确定出可以区分候选帧匹配对是否存在错误匹配问题的预设时差区间，例如可以将每一候选帧匹配对的图像帧时差的众数或者均值作为预设时差区间的中心值，并基于预先设定的区间范围，确定预设时差区间。

例如，待检索视频Q与候选匹配视频V之间的T个候选帧匹配对的图像帧时差众数为5分钟，预先设定的区间范围为2分钟，则确定预设时差区间为[4分钟，6分钟]。若T个候选帧匹配对中，存在图像帧时差在4至6分钟以外的候选帧匹配对，例如图像帧时差为8分钟的候选帧匹配对，则删除该候选帧匹配对。

本发明实施例提供的方法，通过图像帧时差对候选帧匹配对进行筛选，能够有效滤除错误匹配的候选帧匹配对，提高了视频检索结果的准确性。

基于上述任一实施例，图7为本发明另一实施例提供的视频检索方法的流程示意图，如图7所示，该方法包括如下步骤：

首先，确定待检索视频。

其次，对待检索视频中的每个图像帧进行逐帧聚类，具体计算当前图像帧的图像特征和前次聚类得到的每个图像簇的聚类中心特征之间的相似度，判断是否存在当前图像帧的图像特征和任一图像簇的聚类中心特征之间的相似度大于预设相似度阈值，大于如果则将当前图像帧加入到最大相似度对应的图像簇中，否则创建新的图像簇，并将当前图像帧加入到新的图像簇中。

在完成图像帧的逐帧聚类后，将聚类得到的每个图像簇中距离聚类中心最近的图像帧作为每个图像簇的关键帧，完成关键帧的抽取。

接着，针对每一关键帧进行描述特征抽取。具体可以将任一关键帧输入至描述特征提取模型，由描述特征提取模型中的图像特征提取层首先抽取关键帧的图像特征，再由描述特征提取模型中不同尺度的区域特征提取层从不同尺度对图像特征进行采样，得到每个尺度下的若干个采样区域的区域特征，最后由描述特征提取模型中的尺度融合层对每个尺度下每个采样区域的区域特征进行融合，得到关键帧的描述特征。

在得到待检索视频中每个关键帧的描述特征后，可以将待检索视频的关键帧的描述特征与预设视频库内各个视频的各个关键帧的描述特征进行匹配，从而得到待检索视频的关键帧的图像帧检索结果。此处，预设视频库中各个视频的各个关键帧的描述特征可以基于上述待检索视频的关键帧抽取方法以及描述特征的抽取方法预先得到，此处不再赘述。

最后，可以结合各个关键帧的图像帧检索结果，确定待检索视频的视频检索结果。

本发明实施例提供的方法，其中对每个图像帧进行逐帧聚类的方法，具有自适应性强、计算量小的优点，由此得到的关键帧能够无遗漏地表征待检索视频中各种类型的图像帧，因此保证了视频检索的全面性和准确性；此外，关键帧的抽取，能够大大减少视频检索的数据计算量，针对关键帧的描述特征的抽取，提高了抽取的特征对于关键帧的整体信息和细节信息的描述能力，能够在可行的计算时间内实现视频检索的功能。

基于上述任一实施例，图8为本发明实施例提供的视频检索装置的结构示意图，如图8所示，该装置包括视频确定单元810、关键帧提取单元820和视频检索单元830；

其中，视频确定单元810用于确定待检索视频；

关键帧提取单元820用于对所述待检索视频中所有图像帧进行聚类，得到多个图像簇，从每一图像簇中分别选取每一图像簇的关键帧；

视频检索单元830用于基于每一关键帧，确定所述待检索视频的视频检索结果。

本发明实施例提供的装置，通过对待检索视频中所有图像帧进行聚类，得到多个图像簇，从每一图像簇中分别选取每一图像簇的关键帧，进而确定待检索视频的视频检索结果，避免了对待检索视频中所有的图像帧进行检索匹配占用大量计算资源，在减小数据计算量和算法复杂度、提高视频检索效率的同时，保证了视频检索的全面性和准确性。

基于上述任一实施例，关键帧提取单元820具体用于：

将所述待检索视频中的下一图像帧更新为当前图像帧。

基于上述任一实施例，视频检索单元830包括：

描述特征抽取子单元，用于确定任一关键帧的描述特征；

关键帧检索子单元，用于基于所述任一关键帧的描述特征，在预设视频库中进行检索，得到所述任一关键帧的图像帧检索结果；

检索结果确定子单元，用于基于每一关键帧的图像帧检索结果，确定所述待检索视频的视频检索结果。

基于上述任一实施例，所述描述特征抽取子单元包括：

图像特征提取子单元，用于将任一关键帧输入至描述特征提取模型的图像特征提取层，得到所述图像特征提取层输出的图像特征；

区域特征提取子单元，用于将所述图像特征输入至所述描述特征提取模型的多个尺度下的区域特征提取层，分别得到每一尺度下的区域特征提取层输出的对应尺度下若干个采样区域的区域特征；

尺度融合子单元，用于将每一尺度下每一采样区域的区域特征输入至所述描述特征提取模型的尺度融合层，得到所述尺度融合层输出的描述特征。

基于上述任一实施例，所述区域特征提取子单元具体用于：

基于上述任一实施例，所述检索结果确定子单元包括：

匹配对确定子单元，用于基于每一关键帧的图像帧检索结果，确定所述待检索视频的若干个候选匹配视频，以及所述待检索视频与每一候选匹配视频之间的若干个候选帧匹配对；

匹配得分确定子单元，用于基于所述待检索视频与任一候选匹配视频之间的若干个候选帧匹配对，确定所述任一候选匹配视频的匹配得分；

结果确定子单元，用于基于每一候选匹配视频的匹配得分，确定所述待检索视频的视频检索结果。

基于上述任一实施例，所述检索结果确定子单元还包括匹配对滤除子单元，用于：

图9为本发明实施例提供的电子设备的结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑命令，以执行如下方法：确定待检索视频；对所述待检索视频中所有图像帧进行聚类，得到多个图像簇，从每一图像簇中分别选取每一图像簇的关键帧；基于每一关键帧，确定所述待检索视频的视频检索结果。

此外，上述的存储器930中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定待检索视频；对所述待检索视频中所有图像帧进行聚类，得到多个图像簇，从每一图像簇中分别选取每一图像簇的关键帧；基于每一关键帧，确定所述待检索视频的视频检索结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频检索方法，其特征在于，包括：

确定待检索视频；

基于每一关键帧，确定所述待检索视频的视频检索结果；

所述基于每一关键帧，确定所述待检索视频的视频检索结果，具体包括：

确定任一关键帧的描述特征，所述关键帧的描述特征是通过多个尺度下的区域特征提取层对图像特征进行不同尺度不同位置的区域特征提取得到的；

2.根据权利要求1所述的视频检索方法，其特征在于，所述对所述待检索视频中所有图像帧进行聚类，得到多个图像簇，具体包括：

将所述待检索视频中的下一图像帧更新为当前图像帧。

3.根据权利要求1所述的视频检索方法，其特征在于，所述确定任一关键帧的描述特征，具体包括：

将每一尺度下每一采样区域的区域特征输入至所述描述特征提取模型的尺度融合层，得到所述尺度融合层输出的所述描述特征。

4.根据权利要求3所述的视频检索方法，其特征在于，所述将所述图像特征输入至所述描述特征提取模型的多个尺度下的区域特征提取层，分别得到每一尺度下的区域特征提取层输出的对应尺度下若干个采样区域的区域特征，具体包括：

5.根据权利要求1所述的视频检索方法，其特征在于，所述基于每一关键帧的图像帧检索结果，确定所述待检索视频的视频检索结果，具体包括：

6.根据权利要求5所述的视频检索方法，其特征在于，所述基于所述待检索视频与任一候选匹配视频之间的若干个候选帧匹配对，确定所述任一候选匹配视频的匹配得分，之前还包括：

若所述待检索视频与任一候选匹配视频之间的任一候选帧匹配对的图像帧时差不处于预设时差区间内，则删除所述任一候选帧匹配对；

所述预设时差区间是基于所述待检索视频与所述任一候选匹配视频之间的每一候选帧匹配对的图像帧时差确定的。

7.一种视频检索装置，其特征在于，包括：

视频确定单元，用于确定待检索视频；

视频检索单元，用于基于每一关键帧，确定所述待检索视频的视频检索结果；

所述视频检索单元具体用于：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6中任一项所述的视频检索方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6中任一项所述的视频检索方法的步骤。