CN110688524B

CN110688524B - 视频检索方法、装置、电子设备及存储介质

Info

Publication number: CN110688524B
Application number: CN201910906572.9A
Authority: CN
Inventors: 周旭智; 刘浏
Original assignee: Shenzhen Onething Technology Co Ltd
Current assignee: Shenzhen Onething Technology Co Ltd
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2023-04-14
Anticipated expiration: 2039-09-24
Also published as: CN110688524A

Abstract

一种视频检索方法，包括：接收待检索视频；对待检索视频进行预处理，获得视频关键帧图片；将视频关键帧图片划分成多个区域图片；将多个区域图片以及视频关键帧图片输入至预先训练好的深度卷积网络，获得视频关键帧图片的图片特征；对多段帧序列的视频关键帧图片的图片特征进行组合，获得待检索视频的视频指纹特征；采用欧氏距离以及时序匹配方案，将待检索视频的视频指纹特征与视频数据库中的视频指纹特征进行匹配，获得多个推荐视频；基于覆盖率以及欧氏距离，对多个推荐视频进行排序，获得多个推荐视频的排序结果；按照排序结果，输出多个推荐视频。本发明还提供一种视频检索装置。本发明能提高视频检索的质量。

Description

视频检索方法、装置、电子设备及存储介质

技术领域

本发明涉及视频技术领域，尤其涉及一种视频检索方法、装置、电子设备及存储介质。

背景技术

随着计算机网络与多媒体技术发展，视频媒体的传播及数字版权保护问题逐渐成为困扰诸多视频内容提供商的难题。现有的基于视频指纹特征的视频检索技术的关键在于视频指纹特征的提取与匹配。然而，现有检索方案中提取的视频指纹特征的鲁棒性较低，很难符合检索质量的要求。

因此，如何提高视频指纹特征的鲁棒性以提高检索质量是一个亟待解决的技术问题。

发明内容

鉴于以上内容，有必要提供一种视频检索方法、装置、电子设备及存储介质，能够提高视频指纹特征的鲁棒性，提高检索质量。

本发明的第一方面提供一种视频检索方法，所述方法包括：

接收待检索视频；

对所述待检索视频进行预处理，获得多段帧序列的视频关键帧图片；

针对每个所述视频关键帧图片，将所述视频关键帧图片划分成多个区域图片；

将所述多个区域图片以及所述视频关键帧图片输入至预先训练好的深度卷积网络，获得所述视频关键帧图片的图片特征；

对所述多段帧序列的视频关键帧图片的图片特征进行组合，获得所述待检索视频的视频指纹特征；

采用欧氏距离以及时序匹配方案，将所述待检索视频的视频指纹特征与视频数据库中的视频指纹特征进行匹配，获得多个推荐视频；

基于覆盖率以及所述欧氏距离，对所述多个推荐视频进行排序，获得所述多个推荐视频的排序结果，其中，所述覆盖率作为所述推荐视频的时序匹配指标；

按照所述排序结果，输出所述多个推荐视频。

在一种可能的实现方式中，所述对所述待检索视频进行预处理，获得多段帧序列的视频关键帧图片包括：

对所述待检索视频进行帧采样及关键帧提取处理，获得多段帧序列；

对所述多段帧序列的视频帧图片进行黑边检测；

若检测到所述多段帧序列的视频帧图片中存在黑边，从所述多段帧序列的视频帧图片中删除所述黑边，获得所述多段帧序列的视频关键帧图片。

对所述多段帧序列的视频帧图片进行画中画检测；

若检测到所述多段帧序列的视频帧图片中存在插入视频图片，从所述多段帧序列的视频帧图片中删除所述插入视频图片，获得所述多段帧序列的视频关键帧图片。

在一种可能的实现方式中，所述将所述多个区域图片以及所述视频关键帧图片输入至预先训练好的深度卷积网络，获得所述视频关键帧图片的图片特征包括：

将所述多个区域图片以及所述视频关键帧图片分别输入至预先训练好的深度卷积网络；

使用所述深度卷积网络，提取每个所述区域图片的局部特征以及所述视频关键帧图片的全局特征；

针对每个所述区域图片，从多个所述局部特征中挑选出属于所述深度卷积网络的目标层的第一关键特征；

针对所述视频关键帧图片，从多个所述全局特征中挑选出属于所述目标层的第二关键特征；

对多个所述区域图片的第一关键特征以及所述视频关键帧图片的第二关键特征进行处理，获得所述视频关键帧图片的图片特征。

在一种可能的实现方式中，所述对多个所述区域图片的第一关键特征以及所述视频关键帧图片的第二关键特征进行处理，获得所述视频关键帧图片的图片特征包括：

针对每个所述区域图片的多个第一关键特征，对每个所述第一关键特征进行正则化处理以及最大池化处理，获得多个第三关键特征；

针对所述视频关键帧图片的多个第二关键特征，对每个所述第二关键特征进行正则化处理以及最大池化处理，获得多个第四关键特征；

将多个所述第三关键特征进行拼接，获得每个所述区域图片的局部关键特征，以及将多个所述第四关键特征进行拼接，获得所述视频关键帧图片的全局关键特征；

对多个所述局部关键特征以及所述全局关键特征进行主成分分析，获得所述视频关键帧图片的图片特征。

在一种可能的实现方式中，所述采用欧氏距离以及时序匹配方案，将所述待检索视频的视频指纹特征与视频数据库中的视频指纹特征进行匹配，获得多个推荐视频包括：

针对视频数据库中的任一视频帧的视频指纹特征，计算所述任一视频帧的视频指纹特征与所述待检索视频的视频指纹特征的欧氏距离；

若所述欧氏距离小于预设距离阈值，确定所述任一视频帧所属的视频为候选视频；

计算所述待检索视频的每个视频帧的视频指纹特征与所述候选视频的每个视频帧的视频指纹特征的欧氏距离，并筛选出欧氏距离小于所述预设距离阈值的视频帧匹配对；

从多个所述候选视频中删除所述视频帧匹配对不符合所述时序限制条件的候选视频，获得多个推荐视频。

在一种可能的实现方式中，所述基于覆盖率以及所述欧氏距离，对所述多个推荐视频进行排序，获得所述多个推荐视频的排序结果包括：

针对每个所述推荐视频，确定所述待检索视频与所述推荐视频的共有视频帧的多个非减子序列；

计算多个所述非减子序列中最长非减子序列的长度与所述推荐视频的视频帧总数的比值，并将所述比值确定为所述推荐视频的覆盖率；

计算所述推荐视频的最长非减子序列与所述待检索视频的最长非减子序列的欧氏距离的平均值；

计算所述覆盖率与所述平均值，获得计算结果；

根据多个所述推荐视频的计算结果，对所述多个推荐视频进行排序，获得所述多个推荐视频的排序结果。

本发明的第二方面提供一种视频检索装置，所述视频检索装置包括：

接收模块，用于接收待检索视频；

预处理模块，用于对所述待检索视频进行预处理，获得多段帧序列的视频关键帧图片；

划分模块，用于针对每个所述视频关键帧图片，将所述视频关键帧图片划分成多个区域图片；

输入模块，用于将所述多个区域图片以及所述视频关键帧图片输入至预先训练好的深度卷积网络，获得所述视频关键帧图片的图片特征；

组合模块，用于对所述多段帧序列的视频关键帧图片的图片特征进行组合，获得所述待检索视频的视频指纹特征；

匹配模块，用于采用欧氏距离以及时序匹配方案，将所述待检索视频的视频指纹特征与视频数据库中的视频指纹特征进行匹配，获得多个推荐视频；

排序模块，用于基于覆盖率以及所述欧氏距离，对所述多个推荐视频进行排序，获得所述多个推荐视频的排序结果，其中，所述覆盖率作为所述推荐视频的时序匹配指标；

输出模块，用于按照所述排序结果，输出所述多个推荐视频。

本发明的第三方面提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述的视频检索方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的视频检索方法。

由以上技术方案，本发明中，在视频指纹特征提取时，采用分块划分技术将待检索视频的视频关键帧图片划分成多个区域图片，同时，将所述多个区域图片以及所述视频关键帧图片输入至预先训练好的深度卷积网络，获得所述待检索视频的视频指纹特征，可以提高视频指纹特征的鲁棒性及区分性，同时，在进行视频检索时，基于欧氏距离、时序匹配以及覆盖率等进行视频筛选排序，获得多个推荐视频，减少了特征错对的情况，综合考虑局部信息与时序信息，从而可以提高视频的检索质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明公开的一种视频检索方法的较佳实施例的流程图。

图2是本发明公开的一种视频检索装置的较佳实施例的功能模块图。

图3是本发明实现视频检索方法的较佳实施例的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在本发明中涉及“第一”、“第二”、“第三”及“第四”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”及“第四”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

所述电子设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述电子设备还可包括网络设备和/或用户设备。其中，所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理PDA等。

请参见图1，图1是本发明公开的一种视频检索方法的较佳实施例的流程图。其中，根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

S11、电子设备接收待检索视频。

其中，所述待检索视频为用户输入的视频，用户需要通过电子设备从视频数据库中检索与所述待检索视频相似的一些视频。

其中，所述视频数据库中存储有多个供检索的视频，每个视频有对应的视频指纹特征，其中，所述视频数据库中的每个视频的视频指纹特征的提取方法与所述待检索视频的视频指纹特征的提取方法相同，可以参照下文的相关描述。

S12、电子设备对所述待检索视频进行预处理，获得多段帧序列的视频关键帧图片。

其中，电子设备对所述待检索视频进行预处理，主要包括视频分割处理(即帧采样)、关键帧提取处理(即去重处理)、黑边检测以及画中画检测。通过对所述待检索视频的预处理，可以减少局部画面插入攻击和字幕、水印及盗摄对视频指纹特征提取算法的影响，能够有效提高所提取的视频指纹特征的鲁棒性。

可选的，所述对所述待检索视频进行预处理，获得多段帧序列的视频关键帧图片包括：

对所述多段帧序列的视频帧图片进行黑边检测；

在该可选的实施方式中，可以以一定帧率对所述待检索视频进行帧采样，进一步地，为了降低重复信息，还需要对采样后的多个视频帧进行关键帧提取处理，以删除掉重复的视频帧，获得处理后的多段帧序列。此外，由于在画面顶部或者底部具有黑边，有时存在画面水平两侧，为了减少黑边的无效信息干扰，需要对所述多段帧序列的视频帧图片进行黑边检测，具体的，以检测左右黑边范围为例，可以先按列求出每列的平均灰度值，再从左右两侧向中心方向遍历，将每列的平均灰度值与画面的整体灰度均值比较，若某列的平均灰度值小于整体灰度均值的预设比例(比如0.1)，则可以确定该列为黑边范围。在确定黑边后，即可从多段帧序列的视频帧图片中删除所述黑边，获得所述多段帧序列的视频关键帧图片。

对所述多段帧序列的视频帧图片进行画中画检测；

在该可选的实施方式中，可以以一定帧率对所述待检索视频进行帧采样，进一步地，为了降低重复信息，还需要对采样后的多个视频帧进行关键帧提取处理，以删除掉重复的视频帧，获得处理后的多段帧序列。此外，为了抵御画中画攻击，需要对所述多段帧序列的视频帧图片进行画中画检测，具体的，可以采用LSD(Line Segment Detector，直线检测)线段检测算法，得到候选的线段，再进行长方形拟合，得到候选的画中画区域(即插入视频图片的区域)，由于插入视频图片通常是用户不需要检索的，在检测到所述多段帧序列的视频帧图片中存在插入视频图片时，即可从所述多段帧序列的视频帧图片中删除所述插入视频图片，获得所述多段帧序列的视频关键帧图片。

S13、电子设备针对每个所述视频关键帧图片，将所述视频关键帧图片划分成多个区域图片。

其中，为了抵御静态图块插入攻击，还需要进一步对每个所述视频关键帧图片进行分块处理，以降低局部画面对整体特征的影响，增加检索召回率。

具体的，可以将所述视频关键帧图片平均划分成多个区域图片，比如均分为4个区域图片。

S14、电子设备将所述多个区域图片以及所述视频关键帧图片输入至预先训练好的深度卷积网络，获得所述视频关键帧图片的图片特征。

本发明实施例中，预先训练好的深度卷积网络可以为通过大量数据训练得到的VGG网络，利用VGG网络对于噪声，裁剪，模糊，平移，翻转，压缩等图像变换都鲁棒的特征，将该VGG网络用于视频的视频指纹特征的提取，相对于传统人为设计的哈希特征，使用数据驱动训练得到的模型特征更具有描述性，能够提高视频指纹特征的鲁棒性及区分性。

其中，VGG网络的训练过程为：将样本集合中的每个数据输入至初始网络，获得所述初始网络的实际输出值(此时初始网络中的权重都是随机的)，计算预测值与所述实际输出值的误差，根据所述误差调整所述初始网络的权重矩阵。对每个数据都重复上述过程，直到对整个样本集合来说，误差不超过规定范围，此时可以将调整权重矩阵后的网络确定为VGG网络。

其中，VGG网络由卷积层、全连接层、softmax输出层构成，层与层之间使用max-pooling(最大池化)分开，所有隐层的激活单元都采用ReLU函数。

具体的，所述将所述多个区域图片以及所述视频关键帧图片输入至预先训练好的深度卷积网络，获得所述视频关键帧图片的图片特征包括：

在该实施例中，将所述多个区域图片以及所述视频关键帧图片分别输入至预先训练好的深度卷积网络之后，深度卷积网络与输入数据(所述多个区域图片以及所述视频关键帧图片)进行前向传播计算，可以得到多个层次的参数集合。所述深度卷积网络可以根据每个所述区域图片的像素值提取局部特征(即局部参数)，同时，根据所述视频关键帧图片的像素值提取全局特征(即全局参数)。其中，所述深度卷积网络所提取的特征可以代表图片中物理的轮廓，纹理以及语义信息，不同层次的参数共同描述图片的特征。

通常，神经网络学习到的特征是具有辨别性的特征，因此，可以预先通过多次试验，确定能够提取出辨别性特征的目标层(比如第3层至第13层的中间11层)，由于目标层提取出来的特征通常携带有关键信息，比如颜色，边缘，纹理等信息，因此，只需要提取属于目标层的特征，而其他层的特征可以忽略。具体的，针对每个所述区域图片以及所述视频关键帧图片，需要分别提取属于所述深度卷积网络的目标层的关键特征，并对分别提取的关键特征进行处理，以获得所述视频关键帧图片的图片特征。其中，该图片特征既包括了局部区域的局部特征，同时也包括了整体图片的全局特征，针对局部画面插入攻击的情况，具有更好的鲁棒性。

具体的，所述对多个所述区域图片的第一关键特征以及所述视频关键帧图片的第二关键特征进行处理，获得所述视频关键帧图片的图片特征包括：

在该实施例中，由于深度卷积网络每层的取值范围不同，而后续进行视频指纹特征匹配时是基于欧氏距离的，因此需要对提取出来的关键帧的数据范围进行归一化，具体的，需要先对每一层的参数进行正则化处理(比如L2正则处理)，然后进行最大池化计算，最后再进行L2正则化处理，使得最后每层的提取出来的关键帧的值域和维度达到统一。

在进行正则化处理以及最大池化处理之后，即可进行关键特征的拼接，获得所述区域图片的局部关键特征以及所述视频关键帧图片的全局关键特征，最后，由于上述得到的局部关键特征以及全局关键特征的维数(比如4096维)较大，需要进行主成分分析(principal components analysis，PCA)，具体的，可以基于正交变换的转化过程，抽取压缩后的特征，得到512维度的向量，最后，多个所述局部关键特征以及所述全局关键特征被压缩后的特征即为最终的所述视频关键帧图片的图片特征。

S15、电子设备对所述多段帧序列的视频关键帧图片的图片特征进行组合，获得所述待检索视频的视频指纹特征。

其中，所述图片特征均是以特征向量的形式存在的，可以直接根据向量组合的方式对对所述多段帧序列的视频关键帧图片的图片特征进行组合，获得所述待检索视频的视频指纹特征。

其中，所述视频指纹特征可以包括但不限于视频帧的颜色特征、边缘特征、纹理特征、角点特征以及运动的变化等特征。

S16、电子设备采用欧氏距离以及时序匹配方案，将所述待检索视频的视频指纹特征与视频数据库中的视频指纹特征进行匹配，获得多个推荐视频。

具体的，所述采用欧氏距离以及时序匹配方案，将所述待检索视频的视频指纹特征与视频数据库中的视频指纹特征进行匹配，获得多个推荐视频包括：

在该实施例中，视频检索分为近似视频检索以及精确视频检索。在近似视频检索时，针对提取到的所述待检索视频的视频指纹特征，可以使用欧氏距离作为距离衡量指标，预先设定预设距离阈值。针对视频数据库中的任一视频帧的视频指纹特征，计算所述任一视频帧的视频指纹特征与所述待检索视频的视频指纹特征的欧氏距离。为了提高比对的效率，如果所述欧氏距离小于预设距离阈值，就结束其余视频帧的距离比较，直接确定所述任一视频帧所属的视频与所述待检索视频比较类似，将所述任一视频帧所属的视频确定为候选视频。

之后，需要进行精确视频检索。为了进一步对近似检索的结果做筛选，可以分别遍历两个视频(所述待检索视频和所述候选视频)，对两个视频所有视频帧的视频指纹特征一对一算出欧氏距离，筛选出低于预设距离阈值的视频帧匹配对。通常，视频帧的顺序都是以时间先后排列的，帧序号满足递增约束时，视频帧为非减子序列。基于时序限制条件，需要从多个所述候选视频中删除所述视频帧匹配对不符合所述时序限制条件的候选视频，即可获得多个推荐视频。比如待检索视频Q的第1，3帧对应到候选视频C的第5，1帧，则不满足增长关系，应排除候选视频C。

S17、电子设备基于覆盖率以及所述欧氏距离，对所述多个推荐视频进行排序，获得所述多个推荐视频的排序结果。

其中，所述覆盖率作为所述推荐视频的时序匹配指标。

具体的，所述基于覆盖率以及所述欧氏距离，对所述多个推荐视频进行排序，获得所述多个推荐视频的排序结果包括：

计算所述覆盖率与所述平均值，获得计算结果；

在该实施例中，针对每个所述推荐视频，可以先确定所述待检索视频与所述推荐视频的共有视频帧的多个非减子序列，其中，每个所述非减子序列中视频帧的长度不同。可以定义覆盖率(Coverage)作为时序匹配指标，计算多个所述非减子序列中最长非减子序列的长度与所述推荐视频的视频帧总数的比值，并将所述比值确定为所述推荐视频的覆盖率，比如所述推荐视频的视频帧总数为5帧，多个所述非减子序列中最长非减子序列为第1、3、5帧，多个所述非减子序列中最长非减子序列的长度为3，则二者的比值为3/5＝0.6。最后为了综合考虑视频的整体时序信息及局部像素统计信息，可以定义联合响应指标作为精确排序的依据：Combined＝Coverage/Avg(L2_distance)，其中，Coverage为覆盖率，Avg(L2_distance)代表两段视频的最长非减子序列的欧氏距离的平均值，Combined为计算结果，最后，即可根据Combined的大小对所述多个推荐视频进行排序，获得所述多个推荐视频的排序结果。

S18、电子设备按照所述排序结果，输出所述多个推荐视频。

通常，计算结果越大，对应的推荐视频的排序就越靠前。电子设备可以按照所述排序结果，输出所述多个推荐视频，用户可以根据自己的需要来选择某个推荐视频。

在图1所描述的方法流程中，在视频指纹特征提取时，采用分块划分技术将待检索视频的视频关键帧图片划分成多个区域图片，同时，将所述多个区域图片以及所述视频关键帧图片输入至预先训练好的深度卷积网络，获得所述待检索视频的视频指纹特征，可以提高视频指纹特征的鲁棒性及区分性，同时，在进行视频检索时，基于欧氏距离、时序匹配以及覆盖率等进行视频筛选排序，获得多个推荐视频，减少了特征错对的情况，综合考虑局部信息与时序信息，从而可以提高视频的检索质量。

以上所述，仅是本发明的具体实施方式，但本发明的保护范围并不局限于此，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

请参见图2，图2是本发明公开的一种视频检索装置的较佳实施例的功能模块图。

在一些实施例中，所述视频检索装置运行于电子设备中。所述视频检索装置可以包括多个由程序代码段所组成的功能模块。所述视频检索装置中的各个程序段的程序代码可以存储于存储器中，并由至少一个处理器所执行，以执行图1所描述的视频检索方法中的部分或全部步骤，具体参照图1中的相关描述，在此不再赘述。

本实施例中，所述视频检索装置根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：接收模块201、预处理模块202、划分模块203、输入模块204、组合模块205、匹配模块206、排序模块207及输出模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。关于各模块的功能将在后续的实施例中详述。

接收模块201，用于接收待检索视频。

预处理模块202，用于对所述待检索视频进行预处理，获得多段帧序列的视频关键帧图片。

具体的，所述预处理模块202对所述待检索视频进行预处理，获得多段帧序列的视频关键帧图片的方式具体为：

对所述多段帧序列的视频帧图片进行黑边检测；

对所述多段帧序列的视频帧图片进行画中画检测；

划分模块203，用于针对每个所述视频关键帧图片，将所述视频关键帧图片划分成多个区域图片。

输入模块204，用于将所述多个区域图片以及所述视频关键帧图片输入至预先训练好的深度卷积网络，获得所述视频关键帧图片的图片特征。

具体的，所述输入模块204将所述多个区域图片以及所述视频关键帧图片输入至预先训练好的深度卷积网络，获得所述视频关键帧图片的图片特征的方式具体为：

组合模块205，用于对所述多段帧序列的视频关键帧图片的图片特征进行组合，获得所述待检索视频的视频指纹特征。

匹配模块206，用于采用欧氏距离以及时序匹配方案，将所述待检索视频的视频指纹特征与视频数据库中的视频指纹特征进行匹配，获得多个推荐视频。

具体的，所述匹配模块206采用欧氏距离以及时序匹配方案，将所述待检索视频的视频指纹特征与视频数据库中的视频指纹特征进行匹配，获得多个推荐视频的方式具体为：

排序模块207，用于基于覆盖率以及所述欧氏距离，对所述多个推荐视频进行排序，获得所述多个推荐视频的排序结果，其中，所述覆盖率作为所述推荐视频的时序匹配指标。

具体的，所述排序模块207基于覆盖率以及所述欧氏距离，对所述多个推荐视频进行排序，获得所述多个推荐视频的排序结果，其中，所述覆盖率作为所述推荐视频的时序匹配指标的方式具体为：

计算所述覆盖率与所述平均值，获得计算结果；

输出模块208，用于按照所述排序结果，输出所述多个推荐视频。

在图2所描述的视频检索装置中，在视频指纹特征提取时，采用分块划分技术将待检索视频的视频关键帧图片划分成多个区域图片，同时，将所述多个区域图片以及所述视频关键帧图片输入至预先训练好的深度卷积网络，获得所述待检索视频的视频指纹特征，可以提高视频指纹特征的鲁棒性及区分性，同时，在进行视频检索时，基于欧氏距离、时序匹配以及覆盖率等进行视频筛选排序，获得多个推荐视频，减少了特征错对的情况，综合考虑局部信息与时序信息，从而可以提高视频的检索质量。

如图3所示，图3是本发明实现视频检索方法的较佳实施例的电子设备的结构示意图。所述电子设备3包括存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33及至少一条通讯总线34。

本领域技术人员可以理解，图3所示的示意图仅仅是所述电子设备3的示例，并不构成对所述电子设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备3还可以包括输入输出设备、网络接入设备等。

所述电子设备3还包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(InternetProtocol Television，IPTV)、智能式穿戴式设备等。所述电子设备3所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

所述至少一个处理器32可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等，所述处理器32是所述电子设备3的控制中心，利用各种接口和线路连接整个电子设备3的各个部分。

所述存储器31可用于存储所述计算机程序33和/或模块/单元，所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元，以及调用存储在存储器31内的数据，实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据)等。此外，存储器31可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

结合图1，所述电子设备3中的所述存储器31存储多个指令以实现一种视频检索方法，所述处理器32可执行所述多个指令从而实现：

接收待检索视频；

按照所述排序结果，输出所述多个推荐视频。

具体地，所述处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在图3所描述的电子设备3中，在视频指纹特征提取时，采用分块划分技术将待检索视频的视频关键帧图片划分成多个区域图片，同时，将所述多个区域图片以及所述视频关键帧图片输入至预先训练好的深度卷积网络，获得所述待检索视频的视频指纹特征，可以提高视频指纹特征的鲁棒性及区分性，同时，在进行视频检索时，基于欧氏距离、时序匹配以及覆盖率等进行视频筛选排序，获得多个推荐视频，减少了特征错对的情况，综合考虑局部信息与时序信息，从而可以提高视频的检索质量。

所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器以及只读存储器(ROM，Read-Only Memory)。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种视频检索方法，其特征在于，所述方法包括：

接收待检索视频；

按照所述排序结果，输出所述多个推荐视频。

2.根据权利要求1所述的方法，其特征在于，所述对所述待检索视频进行预处理，获得多段帧序列的视频关键帧图片包括：

对所述多段帧序列的视频帧图片进行黑边检测；

3.根据权利要求1所述的方法，其特征在于，所述对所述待检索视频进行预处理，获得多段帧序列的视频关键帧图片包括：

对所述多段帧序列的视频帧图片进行画中画检测；

4.根据权利要求1所述的方法，其特征在于，所述将所述多个区域图片以及所述视频关键帧图片输入至预先训练好的深度卷积网络，获得所述视频关键帧图片的图片特征包括：

5.根据权利要求4所述的方法，其特征在于，所述对多个所述区域图片的第一关键特征以及所述视频关键帧图片的第二关键特征进行处理，获得所述视频关键帧图片的图片特征包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述采用欧氏距离以及时序匹配方案，将所述待检索视频的视频指纹特征与视频数据库中的视频指纹特征进行匹配，获得多个推荐视频包括：

7.根据权利要求6所述的方法，其特征在于，所述基于覆盖率以及所述欧氏距离，对所述多个推荐视频进行排序，获得所述多个推荐视频的排序结果包括：

计算所述覆盖率与所述平均值，获得计算结果；

8.一种视频检索装置，其特征在于，所述视频检索装置包括：

接收模块，用于接收待检索视频；

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任意一项所述的视频检索方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现如权利要求1至7中任意一项所述的视频检索方法。