CN113704551A

CN113704551A - 一种视频检索方法、存储介质及设备

Info

Publication number: CN113704551A
Application number: CN202110975922.4A
Authority: CN
Inventors: 黄俊文; 章焱; 吴晓东; 刁均威
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2021-11-26

Abstract

本说明书提供一种视频检索方法、存储介质及设备，该方法中，基于待检索视频的特征矩阵与从视频库中获取的候选视频的特征矩阵之间的互功率谱，得到两个视频之间的相似度，以及表征两个视频中的相似视频帧在时序上的偏移量，从而在相似度超过阈值时，可以基于该偏移量确定相似视频帧在两个视频中的位置。这样，通过采用相位相关法对待检索视频和视频库中的视频进行匹配，无需在每帧视频帧上进行判断，从而提升了视频检索的效率。

Description

一种视频检索方法、存储介质及设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种视频检索方法、存储介质及设备。

背景技术

为了保护创作者的版权，在将新视频加入视频平台的视频库时，视频平台需要从视频库内已有的视频中检索出与新视频内容相近的若干视频。相关技术中一般是采用MFH(Multiple Feature Hashing，多特征哈希)、STH(Self-Taught Hashing，自学哈希)、滑窗法等来对视频进行检索，然而，MFH法、STH是针对每个视频提取一个对应的特征，基于特征来判断两个视频是否相似，但是无法确定具体哪些片段是重复的；而滑窗法需要在视频的每帧视频帧上进行大量的滑动判断，计算效率比较低，难以符合视频创作平台的要求。

发明内容

为克服相关技术中存在的问题，本说明书提供了一种视频检索方法、存储介质及设备。

根据本说明书实施例的第一方面，提供一种视频检索方法，包括：

获取待检索视频的特征矩阵；

基于所述待检索视频的特征矩阵与候选视频的特征矩阵之间的互功率谱，得到所述待检索视频和所述候选视频之间的相似度和偏移量；所述候选视频从视频库中获取；所述偏移量表征所述待检索视频和所述候选视频中的相似视频帧在时序上的偏移；

若所述相似度超过阈值，基于所述偏移量确定所述相似视频帧在所述待检索视频中的第一位置以及在所述候选视频中的第二位置。

在某些例子中，上述候选视频是基于待检索视频的视频指纹，从视频库中获取得到的。

在某些例子中，上述待检索视频/候选视频的视频指纹是基于对所述待检索视频/候选视频的特征矩阵执行奇异值分解后得到的奇异值而组成的。

在某些例子中，上述待检索视频/候选视频的视频指纹基于以下方式获得：

对所述待检索视频/候选视频的特征矩阵执行奇异值分解，将得到的奇异值组成初始向量；

截取所述初始向量中的预设维数作为目标向量，将所述目标向量确定为所述待检索视频/候选视频的视频指纹。

在某些例子中，基于所述待检索视频的特征矩阵与候选视频的特征矩阵之间的互功率谱，得到所述待检索视频和所述候选视频之间的相似度和偏移量，包括：

对所述待检索视频的特征矩阵与候选视频的特征矩阵之间的互功率谱进行傅里叶逆变换，得到脉冲函数；

基于所述脉冲函数得到峰值点，根据所述峰值点的坐标得到所述待检索视频和所述候选视频之间的相似度和偏移量。

在某些例子中，在基于所述待检索视频的特征矩阵与候选视频的特征矩阵之间的互功率谱，得到所述待检索视频和所述候选视频之间的相似度和偏移量之前，包括：

若所述待检索视频的帧数与所述候选视频的帧数不相等，对所述候选视频的特征矩阵与所述待检索视频的特征矩阵中的至少一者进行分割，以使分割后的所述候选视频的特征矩阵与所述待检索视频的特征矩阵具有相同的行列数。

在某些例子中，若所述相似度大于或等于第一阈值，且所述偏移量等于零，确定所述相似视频帧包括所述待检索视频和所述候选视频的所有视频帧；

若所述相似度小于所述第一阈值且大于第二阈值，且所述偏移量等于零，对所述待检索视频与所述候选视频进行分割，重新确定分割后的视频之间的相似度和偏移量，以根据重新确定的相似度和偏移量确定相似视频帧的位置；其中，所述第一阈值大于所述第二阈值。

在某些例子中，上述方法还包括：

将所述相似视频帧在所述待检索视频中的第一位置以及在所述候选视频中的第二位置确定为初始匹配结果；

从所述待检索视频的特征矩阵中分割出对应所述第一位置的第一矩阵，从所述候选视频的特征矩阵中分割出对应所述第二位置的第二矩阵；

基于所述第一矩阵与所述第二矩阵之间的互功率谱，得到所述第一矩阵与第二矩阵之间的目标相似度和目标偏移量；

若所述目标相似度大于或等于第一阈值，且所述目标偏移量等于零，确定所述初始匹配结果是正确的。

根据本说明书实施例的第二方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现说明书实施例中任一项方法。

根据本说明书实施例的第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现说明书实施例中任一项方法。

本说明书的实施例提供的技术方案可以包括以下有益效果：

本说明书实施例中，公开了一种视频检索方法、存储介质及设备，该方法中，基于待检索视频的特征矩阵与从视频库中获取的候选视频的特征矩阵之间的互功率谱，得到两个视频之间的相似度，以及表征两个视频中的相似视频帧在时序上的偏移量，从而在相似度超过阈值时，可以基于该偏移量确定相似视频帧在两个视频中的位置。这样，通过采用相位相关法对待检索视频和视频库中的视频进行匹配，无需在每帧视频帧上进行判断，从而提升了视频检索的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本说明书根据一示例性实施例示出的一种视频检索方法的流程图；

图2是本说明书根据一示例性实施例示出的一种视频检索系统的示意图；

图3是本说明书根据一示例性实施例示出的视频检索装置所在计算机设备的一种硬件结构图；

图4是本说明书根据一示例性实施例示出的一种视频检索装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

随着多媒体技术的发展，视频创作平台成为极为热门的网络用户聚集地，每日会有相当大数量的视频流入视频创作平台的视频库。为了保护创作者的版权，当新视频需要进入视频库时，平台需要检索视频库内所有视频，以检索出与新视频内容相近的若干视频，并交由系统进行后续的检查，这样才能减少将部分用户盗用的视频展示到平台上的情况。相关技术中，一般是采用MFH(Multiple Feature Hashing)、STH(Self-Taught Hashing)、滑窗法等来对视频进行检索，然而，MFH、STH是针对每个视频提取一个对应的特征，基于特征来判断两个视频是否相似，但是无法确定具体哪些片段是重复的；而滑窗法需要在视频的每帧视频帧上进行大量的滑动判断，计算效率比较低，难以符合视频创作平台的要求。基于此，本说明书实施例提供一种视频检索方案，以解决上述问题。

接下来对本说明书实施例进行详细说明。

如图1所示，图1是本说明书根据一示例性实施例示出的一种视频检索方法的流程图，所述方法包括：

在步骤101、获取待检索视频的特征矩阵；

本实施例的方案可以应用于视频平台，则本步骤中的待检索视频可以是发布者上传至该视频平台的视频，也可以是该视频平台的管理员从其他网站下载的视频。所述的待检索视频的类型可以是电影、动画、短片视频等等，本实施例对此不作限制。

本步骤中提到的特征矩阵可以是由视频的帧级特征聚合而成。帧级特征是指在视频的每帧视频帧上提取得到的特征，在一个可选的实施例中，视频的帧级特征可以是利用图像哈希算法对每帧视频帧进行映射而得到的。图像哈希算法的原理是将输入图像映射成一串短的数字序列，以该数字序列来代表图像本身，从而降低图像存储代价和计算复杂度。具体的，针对一帧视频帧，可以将其分为若干个大小相同的图像块，再利用正交变换，如DFT(Discrete Fourier Transform，离散傅里叶变换)、DCT(Discrete Cosine Transform，离散余弦变换)等在变换域中提取出各图像块的哈希值，进而将所有图像块的哈希值排列成向量，该向量即为该视频帧的帧级特征。当然，在其他实施例中，也可以采用其他类型的图像哈希算法、或者采用如直方图、SIFT(Scale-invariant feature transform，尺度不变特征变换)、深度学习算法等来生成视频的帧级特征，本说明书对此不作限制。

在得到所有视频帧的帧级特征之后，可以按照时序将其进行排列，从而得到该视频的特征矩阵。例如，一个视频由T帧视频帧构成，每帧视频帧分为D个图像块，即每帧视频帧的帧级特征是一个D维的向量，则该视频的特征矩阵可以是一个大小为T×D的矩阵，其中，第i行第j列的数值为第i帧视频帧中的第j个图像块所对应的哈希值。

另外，由于流入视频平台的视频的帧率不一定相同，这样在后续时序对齐时会影响到准确度，基于此，在生成视频的特征矩阵之前，可以先将该视频的帧率固定到某一指定值。这一步骤可以利用OpenCV或FFmpeg等工具对原视频进行转码而实现，当然，在其他实施例中，也可以根据具体场景的需求采用其他方式，本说明书对此不作限制。

在步骤102、基于所述待检索视频的特征矩阵与候选视频的特征矩阵之间的互功率谱，得到所述待检索视频和所述候选视频之间的相似度和偏移量；所述候选视频从视频库中获取；所述偏移量表征所述待检索视频和所述候选视频中的相似视频帧在时序上的偏移；

本步骤中提到的候选视频是从视频库中获取的视频，所述的视频库的本质是多媒体数据库，其可以是视频平台用于管理视频数据并为用户提供基于内容检索的软件系统。实际应用中，视频库中的视频数量是非常大的，若将待检索视频和视频库中的所有视频进行一一匹配，其检索效率显然比较低。因此，在某些例子中，候选视频可以是基于待检索视频的视频指纹从视频库中获取得到的。视频指纹是基于视频指纹技术，根据视频内容生成的一串可唯一标识当前视频的指纹字符，其可以认为是唯一地表征当前视频的特征向量。基于待检索视频的视频指纹，可以使用比较向量相似度的方法，如Faiss(一个针对聚类和相似性搜索的库)算法、汉明距离(Hamming Distance)等，从视频库中筛选出候选视频，筛选的标准可以是候选视频的视频指纹与待检索视频的视频指纹之间的相似度超过预设值，也可以是将视频库中的各视频的视频指纹与待检索视频的视频指纹之间的相似度进行排序，候选视频是排序在预设位次之前的视频。通过这一筛选，能够快速检索到与待检索视频相近的一系列视频，从而减少了任务量，提升了检索效率。

待检索视频或候选视频的视频指纹也可以是通过对该待检索视频或候选视频的特征矩阵进行降维而得到的。具体的，其可以是采用如PCA(Principal ComponentAnalysis，主成分分析)、NMF(Nonnegative Matrix Factorization，非负矩阵分解)等数据降维算法实现。在一个可选的实施例中，待检索视频/候选视频的视频指纹可以是基于对该待检索视频/候选视频的特征矩阵执行奇异值分解后得到的奇异值而组成的。奇异值分解(Singular Value Decomposition，SVD)也是一种数据降维算法，其可以将一个m×n的矩阵A分解为以下形式：

A＝UΣV^T

其中，U和V均为单位正交阵，U称为左奇异矩阵，V称为右奇异矩阵，而Σ是奇异值矩阵，奇异值矩阵仅在主对角线上有值，这些值称为奇异值，其余均为0。奇异值可以认为是原矩阵的代表值，即奇异值能够很好地表达出原矩阵的信息。对视频的特征矩阵执行SVD后，得到奇异值矩阵中的奇异值组成的向量，将该向量作为视频指纹，经试验总结，使用SVD来生成固定维度的视频指纹，相比较于其他数据降维算法来说，可以有效提升视频检索的检出率，而且，SVD可以直接作用于特征矩阵而不需要额外处理，有利于减少平台执行任务处理时的负担。

需要说明的是，由于待检索视频和视频库中的视频所对应的帧数可能不同，即在时间维度上的长度不固定，为了方便后续筛选候选视频时的使用，可以截取奇异值组成的向量的前N维作为视频指纹，所述N是一个固定值，这样，使得各视频的视频指纹是一个固定长度的向量，从而能够在给定检索向量(待检索视频的视频指纹)的情况下，快速找到最相似的若干个库内向量(候选视频的视频指纹)。

另外，在某些例子中，候选视频的视频指纹和特征矩阵可以预先存储于数据库中，这样，视频平台在对待检索视频进行检索处理时，可以从数据库中获取候选视频的视频指纹和特征矩阵，而不需要每次都进行计算，从而实现数据的复用，提升视频检索的效率。

在得到候选视频后，可以基于待检索视频的特征矩阵和候选视频的特征矩阵之间的互功率谱，得到两个视频之间的相似度和偏移量。互功率谱是在频域内描述两个不同信号之间相关程度的方法。待检索视频的特征矩阵和候选视频的特征矩阵之间的互功率谱可以是对这两个特征矩阵分别进行傅里叶变换，以将两个特征矩阵转换成频域后计算得到的。傅里叶变换具有以下特性：在时域中信号的平移运动可以通过在频域中的相位的变换表现出来。相关技术中，一般应用这一特性来实现图像配准，这一配准方法称为相位相关法。而在本实施例中，利用待检索视频的特征矩阵和候选视频的特征矩阵之间的互功率谱来表征这两个视频之间的相移，从而得到这两个视频之间的相似度和偏移量，也就是说，本实施例可以认为是利用相位相关法来对两个视频进行匹配。

具体地，待检索视频和候选视频之间的相似度和偏移量，可以是通过求取该互功率谱的傅里叶逆变换而得到的。对待检索视频的特征矩阵和候选视频的特征矩阵之间的互功率谱做傅里叶逆变换，可以得到一个脉冲函数(也称狄拉克函数)，通过确定这个脉冲函数中的峰值点的坐标，即可得到这两个视频之间的相似度和偏移量。所述的偏移量表征两个视频中的相似视频帧在时序上的偏移，所述的相似视频帧是指图像内容相同或相近的视频帧，这里的图像内容包括图像的颜色、纹理、图像中的物体形状、所处场景、图像中对象的行为等等，因此，两个视频中存在的相似视频帧可以认为是两个视频中重复的片段。

在一可选的实施例中，本步骤可以是使用phaseCorrelate函数实现。所述的phaseCorrelate函数是OpenCV提供的一种相位相关法，相较于其他相位相关法，这一函数加入了亚像素级精度的定位，从而能够得到更精确的坐标。将待检索视频的特征矩阵和候选视频的特征矩阵作为phaseCorrelate函数的输入，phaseCorrelate函数返回归一化的最大响应值及对应此最大响应值时的相对位移量，其中，该最大响应值是峰值点的亚像素级精度的位置坐标对应的响应值，表征两个视频的特征矩阵之间的相似程度，即本步骤提到的相似度；该相对位移量是基于峰值点周边区域的响应值作为峰值点周边区域中坐标位置的权重，加权平均计算而得到的峰值点的亚像素级精度的位置坐标，表征两个视频的特征矩阵达到该最大响应值对应的相似程度所需的位移量，即本步骤提到的偏移量。

另外，若待检索视频和候选视频的帧数是不相等的，此时两个视频的特征矩阵具有不相同的行列数，则在利用相位相关法进行匹配时可能出现无法配准的情况。基于此，在某些例子中，在执行本步骤的匹配之前，可以先对待检索视频的特征矩阵与候选视频的特征矩阵中的至少一者进行分割，以使分割后的候选视频的特征矩阵与候选视频的特征矩阵具有相同的行列数。例如，待检索视频的帧数为T1，候选视频的帧数为T2，若T1小于T2，则基于T1对候选视频的特征矩阵T2×D进行分割，分割成至少两个子矩阵，每个子矩阵的大小都是T1×D；若T1大于T2，则基于T2对待检索视频的特征矩阵T1×D进行分割，分割成至少两个子矩阵，每个子矩阵的大小都是T2×D。对于较长的视频，由于一次只能匹配较短的视频的长度的特征，故需要沿时间维度对该较长的视频进行多次分割，当分割后的剩余部分不满足较短的视频的长度，则可以沿时间维度的倒序来对该较长的视频进行分割，例如，若待检索视频共15帧，候选视频共9帧，则基于候选视频的帧数将待检索视频的特征矩阵分割出第一帧到第九帧对应的子矩阵，以及第七帧到第十五帧对应的子矩阵，这样，针对候选视频的特征矩阵分割得到的各个子矩阵与待检索视频的特征矩阵具有相同的行列数。这样，在利用相位相关法对两个视频进行匹配时，可以对未分割的特征矩阵与分割得到的子矩阵进行分别匹配，最后汇总其结果即可。

在步骤103、若所述相似度超过阈值，基于所述偏移量确定所述相似视频帧在所述待检索视频中的第一位置以及在所述候选视频中的第二位置。

在相似度超过阈值时，可以确认两个视频之间存在相似视频帧，此时可以基于偏移量确定相似视频帧分别在两个视频中的位置。例如，待检索视频和候选视频均为50帧，在相似度超过阈值时，若偏移量的绝对值为5，则表明其中一个视频的第一帧到第四十五帧，与另一个视频的第六帧到第五十帧是相似视频帧，至于相似视频帧在待检索视频中对应的是第一帧到第四十五帧，还是第六帧到第五十帧，取决于偏移量的正负，也就是说，偏移量的正负表示位移的方向。

另外，当偏移量等于零时，可以根据相似度与阈值之间的关系来做进一步的判断。相似度与两个视频的特征矩阵之间相同或相近的元素的数量呈正相关关系，若相似度大于第一阈值，可以认为待检索视频和候选视频的相似程度很高，此时确定该待检索视频和该候选视频是相同的；若相似度小于第一阈值且大于第二阈值，其中第一阈值大于第二阈值，此时认为待检索视频和候选视频中存在的相似视频帧处于中间位置，在某些例子中，其可以通过对待检索视频与候选视频进行分割，如分为大小相同的N份，N大于等于2，再对分割后的视频的特征矩阵执行步骤102，以根据重新确定的相似度和偏移量来确定相似视频帧在两个视频中的位置，其中，若匹配结果仍是相似度小于第一阈值且大于第二阈值且偏移量等于零，则继续分割。需要说明的是，本实施例的相似度可以是[0，1]这一区间中的数值，则第一阈值可以是一个接近于1的数值，如0.8、0.9等，而第二阈值可以是小于第一阈值的数值，如0.3、0.4等，当然，这些数值具体如何设置，也可以根据实际场景的需求来确定，本说明书对此不作限制。

从前面的步骤可知，若待检索视频和候选视频的帧数是不相等的，可以得到多组相似度和偏移量，在基于多组偏移量可以汇总得到两个视频中所有相似视频帧，此时可以从待检索视频的特征矩阵和候选视频的特征矩阵中分割出对应所有相似视频帧的位置的矩阵，再执行步骤102做进一步的验证，从而保证视频检索的准确性。例如，待检索视频共50帧，记为帧A1至帧A50，候选视频共75帧，记为帧B1至帧B75，执行步骤102匹配帧A1至帧A50对应的特征矩阵与帧B1至帧B50对应的特征矩阵后，确定帧A1至帧A30与帧B21至帧B50是重复片段，执行步骤102匹配帧A1至帧A50对应的特征矩阵与帧B26至帧B75对应的特征矩阵后，确定帧6至帧A40与帧B26至帧B60是重复片段后，可以汇总两次匹配结果，确定待检索视频帧中的帧A1至帧A40与候选视频中的帧B21至帧B60是重复片段，则可以从待检索视频的特征矩阵中分割出对应帧A1至帧A40这一位置的矩阵，以及从候选视频的特征矩阵中分割出对应帧B21至帧B60这一位置的矩阵，再执行步骤102匹配分割出的这两个矩阵，若重新确定的相似度大于等于前面提到的第一阈值且偏移量等于零，则可以确定匹配结果是准确的。此外，由于相似度与两个视频的特征矩阵之间相同或相近的元素的数量呈正相关关系，相似度的大小与相似视频帧的帧数具有一定的关系，基于此，若相似度较小，而根据偏移量确定出的相似视频帧的帧数较大时，此时也可以从两个特征矩阵中截取相似视频帧对应的位置，再做一次相位相关法，以对其进行验证。

还有，在相似度小于阈值时，可以认为待检索视频与候选视频之间的相似程度较低，则可以将待检索视频存储于视频库中，并将待检索视频的视频指纹和特征矩阵存储于数据库中，从而实现对待检索视频的自动处理，方便了视频平台管理员的操作。

本实施例的方案，基于待检索视频的特征矩阵与从视频库中获取的候选视频的特征矩阵之间的互功率谱，得到两个视频之间的相似度，以及表征两个视频中的相似视频帧在时序上的偏移量，从而在相似度超过阈值时，可以基于该偏移量确定相似视频帧在两个视频中的位置。本方案通过采用相位相关法对待检索视频和视频库中的视频进行匹配，无需在每帧视频帧上进行判断，从而提升了视频检索的效率。

为了对本说明书的方案做更为详细的说明，接下来介绍一具体实施例：

本实施例中，本说明书的视频检索方法应用于视频平台的服务器中，在服务器中构建出一个视频检索系统，如图2所示，图2是本实施例示出的视频检索系统的示意图，该系统主要由指纹生成模块21、指纹检索模块22、复检模块23，以及视频库24和视频指纹库25；其中，指纹生成模块21用于生成每个视频的特征矩阵和视频指纹，并将生成的特征矩阵和视频指纹保存于视频指纹库25中；指纹检索模块22用于在给定待检索视频的视频指纹的情况下，从视频指纹库25中找到最相似的前K个视频指纹，并将其对应的视频确定为候选视频；复检模块23用于利用相位相关法对待检索视频和候选视频进行匹配，从而确定是否重复片段，以及重复片段的位置；视频库24用于存储视频平台的视频；视频指纹库25用于存储视频库24中的视频所对应的视频指纹和特征矩阵。

针对待检索视频A，该系统的处理过程如下所示：

S201、通过指纹生成模块生成待检索视频A的特征矩阵和视频指纹；

具体地，将待检索视频A的帧率固定到预设帧率，针对固定帧率后的待检索视频A，选用图像哈希作为视频的帧级特征，固定帧率后的待检索视频A包括T1帧视频帧，每帧视频帧的帧级特征共D维，因此，待检索视频A的特征矩阵为T1×D的矩阵，记为矩阵M1，对该特征矩阵执行SVD分解得到其奇异值矩阵对角线所组成的初始向量，截取该初始向量中前N维的目标向量，作为待检索视频A的视频指纹；

S202、通过指纹检索模块，确定候选视频B；

具体地，视频指纹是固定长度的向量，使用Faiss算法比较待检索视频A的视频指纹与视频库中的视频的视频指纹的向量相似性，并对其进行排序，将排序在前K个的视频指纹所对应的视频确定为候选视频B；其中，候选视频B的视频指纹和特征矩阵，也是由指纹生成模块生成的，并预先存储于视频指纹库中的；

S203、通过复检模块，确定待检索视频A和候选视频B之间的相似度以及偏移量；

具体地，使用相位相关法来实现时间维度上的快速对齐，候选视频B是多个候选视频的集合，以其中一个候选视频B1为例，候选视频B1共有T2帧视频帧，因此候选视频B1的特征矩阵为T2×D的矩阵，记为矩阵M2；

第一步、取T1、T2中较小者为T0，对较大者对应的特征矩阵进行切分，在本实施例中，由于T1＝50，T2＝75，因此，将矩阵M2分割为子矩阵M21和子矩阵M22，这两个子矩阵的大小均为T0×D；其中，子矩阵M21是表征候选视频B1中的第一帧至第五十帧的特征的矩阵，子矩阵M22是表征候选视频B1中的第二十六帧至第七十五帧的特征的矩阵；

第二步、利用phaseCorrelate函数对矩阵M1和子矩阵M21进行匹配，得到phaseCorrelate函数返回的第一组数值，分别为归一化的最大响应值和相对位移量，其中，归一化的最大响应值表征两个矩阵之间的相似程度，相对位移量表征两个矩阵达到该相似程度所需的位移量；同样的，利用phaseCorrelate函数对矩阵M1和子矩阵M22进行匹配，得到返回的第二组数值，同样分别为归一化的最大响应值和相对位移量；

第三步、利用设定好的阈值对第一组数值和第二组数值中的最大响应值进行判断，若最大响应值超过第一阈值，认为存在重复片段，此时的相对位移量指示重复片段的位置，将第一组数值和第二组数值进行汇总，得到矩阵M1和矩阵M2中重复片段的位置；

第四步、从矩阵M1和矩阵M2中取出重复片段的位置作为新的矩阵，利用phaseCorrelate函数进行再一次匹配，若得到的归一化的最大响应值超过第二阈值，确定第二步得到的两组数值是正确的，否则将矩阵M1和矩阵M2分别分为N份后再执行第二步；

针对候选视频B中的其他视频B2、B3等，同样采用第一步到第四步的流程来确定相似度以及偏移量；

S204、基于复检模块的确定结果，将待检索视频A进行处理；

具体地，若待检索视频A与候选视频B之间的最大响应值均不超过第一阈值，则将待检索视频A存入视频库中，并将待检索视频A的视频指纹和特征矩阵存入视频指纹库中；否则，对待检索视频A进行标记，标记的内容包括候选视频B的标识、重复片段在待检索视频A中的第一位置以及在候选视频B中的第二位置，并将标记后的待检索视频A进行存储，以等待视频平台的管理员进行人工审核。

通过以上流程，视频检索系统可以对发布者上传的新视频进行快速检索，提升了运行效率，也方便了管理员的处理。另外，需要说明的是，通过试验确定，本实施例的视频检索系统可以适用于视频帧率改变、视频分辨率改变、视频画面增加水印或字幕、视频增加长度不太长的片头片尾等多种业务场景，其检出正确视频的比例很高，因此，本实施例的视频检索系统具有很好的鲁棒性和泛用性。还有，本实施例的视频检索系统的各模块可以解耦，因此可以实现代码或临时数据复用，从而能够提升运行效率，同时也方便部署HTTP服务，便于大规模部署和调用。

与前述方法的实施例相对应，本说明书还提供了视频检索装置及其所应用的终端的实施例。

本说明书视频检索装置的实施例可以应用在计算机设备上，例如服务器或终端设备。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本说明书实施例视频检索装置所在计算机设备的一种硬件结构图，除了图3所示的处理器310、内存330、网络接口320、以及非易失性存储器340之外，实施例中装置331所在的服务器或电子设备，通常根据该计算机设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应地，本说明书实施例还提供一种计算机存储介质，所述存储介质中存储有程序，所述程序被处理器执行时实现上述任一实施例中的方法。

本说明书实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

如图4所示，图4是本说明书根据一示例性实施例示出的一种视频检索装置的框图，所述装置包括：

获取模块41，用于获取待检索视频的特征矩阵；

匹配模块42，用于基于所述待检索视频的特征矩阵与候选视频的特征矩阵之间的互功率谱，得到所述待检索视频和所述候选视频之间的相似度和偏移量；所述候选视频从视频库中获取；所述偏移量表征所述待检索视频和所述候选视频中的相似视频帧在时序上的偏移；

确定模块43，用于若所述相似度超过阈值，基于所述偏移量确定所述相似视频帧在所述待检索视频中的第一位置以及在所述候选视频中的第二位置。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种视频检索方法，其特征在于，所述方法包括：

获取待检索视频的特征矩阵；

2.根据权利要求1所述的方法，其特征在于，所述候选视频是基于待检索视频的视频指纹，从视频库中获取得到的。

3.根据权利要求2所述的方法，其特征在于，所述待检索视频/候选视频的视频指纹是基于对所述待检索视频/候选视频的特征矩阵执行奇异值分解后得到的奇异值而组成的。

4.根据权利要求3所述的方法，其特征在于，所述待检索视频/候选视频的视频指纹基于以下方式获得：

5.根据权利要求1所述的方法，其特征在于，基于所述待检索视频的特征矩阵与候选视频的特征矩阵之间的互功率谱，得到所述待检索视频和所述候选视频之间的相似度和偏移量，包括：

6.根据权利要求1所述的方法，其特征在于，在基于所述待检索视频的特征矩阵与候选视频的特征矩阵之间的互功率谱，得到所述待检索视频和所述候选视频之间的相似度和偏移量之前，包括：

7.根据权利要求1所述的方法，其特征在于，若所述相似度大于或等于第一阈值，且所述偏移量等于零，确定所述相似视频帧包括所述待检索视频和所述候选视频的所有视频帧；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现权利要求1至8任一项所述的方法。