CN110321858A

CN110321858A - 视频相似度确定方法、装置、电子设备及存储介质

Info

Publication number: CN110321858A
Application number: CN201910611477.6A
Authority: CN
Inventors: 王鑫宇
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-10-11
Anticipated expiration: 2039-07-08
Also published as: CN110321858B

Abstract

本公开提供了一种视频相似度确定方法、装置、电子设备及计算机存储介质，该方法包括：获取待处理视频的特征向量，其中，待处理视频包括第一视频和第二视频，对于待处理视频中的各视频，视频的特征向量是设定长度的二进制序列；根据第一视频的特征向量和第二视频的特征向量，确定第一视频和第二视频的相似度。本公开的实施例中，可将待处理视频的描述子通过二进制序列表示，由于二进制序列相对于浮点数描述子的数据量小，因此，本方案中，通过改变视频的描述子的表达方式，可基于待处理视频中的第一视频的特征向量和第二视频的特征向量，快速确定出第一视频和第二视频的相似度，提高数据处理效率。

Description

视频相似度确定方法、装置、电子设备及存储介质

技术领域

本公开涉及视频处理技术领域，具体而言，本公开涉及一种视频相似度确定方法、装置、电子设备及存储介质。

背景技术

现有技术中，人们通常通过分享视频来进行交互，视频相似度确定对于视频检索和去重有着重要的意义，因此，对于大规模的视频资源，如何准确快速的从大规模的视频资源中确定视频的相似度是目前亟待解决的问题。

发明内容

本公开的目的旨在至少能解决上述的技术缺陷之一，提高数据处理效率。本公开采用的技术方案如下：

第一方面，本公开提供了一种视频相似度确定方法，该方法包括：

获取待处理视频的特征向量，其中，待处理视频包括第一视频和第二视频，对于待处理视频中的各视频，视频的特征向量是通过以下方式得到的设定长度的二进制序列：

确定视频的特征点，视频的特征点是基于视频中帧图像的特征点确定的；

对于各特征点中的每个特征点，根据特征点所在的图像区域中的像素信息，确定特征点的二进制描述子；

基于特征点的二进制描述子，确定视频的特征向量；

根据第一视频的特征向量和第二视频的特征向量，确定第一视频和第二视频的相似度。

本公开第一方面的实施例中，像素信息包括图像区域中的各像素点的像素灰度值，根据特征点所在的图像区域中的像素信息，确定特征点的二进制描述子，包括：

根据各像素点的灰度值，确定各像素点的第一响应值；

根据各像素点对应的第一响应值，确定特征点的初始描述子；

根据初始描述子，确定特征点的二进制描述子。

本公开第一方面的实施例中，第一响应值包括水平方向上的第二响应值和垂直方向上的第三响应值，其中，水平方向和垂直方向分别为相对于特征点的主方向的水平方向和垂直方向；

根据各像素点对应的第一响应值，确定特征点的初始描述子，包括：

根据第二响应值，确定初始描述子的水平方向上的第一特征值；

根据第三响应值，确定初始描述子的垂直方向上的第二特征值；

根据初始描述子，确定特征点的二进制描述子，包括：

根据第一特征值，确定二进制描述子的第一维度的取值，根据第二特征值，确定二进制描述子的第二维度的取值。

本公开第一方面的实施例中，初始描述子为Haar小波特征。

本公开第一方面的实施例中，确定视频的特征点，包括：

确定视频中的各帧图像的特征点；

根据特征点在图像区域中的对比度，对各帧图像的特征点进行筛选，得到视频的特征点。

本公开第一方面的实施例中，确定视频的特征点，包括：

确定视频中的各帧图像的特征点；

基于特征点在各帧图像中出现的次数，对各帧图像的特征点进行筛选，得到视频的特征点。

本公开第一方面的实施例中，第一视频为数据库中的视频，第二视频为数据库中除第一视频之外的视频，该方法还包括：

获取倒排索引，倒排索引为基于数据库中的视频的设定长度的二进制序列建立的；

基于第一视频的特征向量，以及倒排索引，将第二视频中与第一视频的特征向量具有至少一个维度的相同取值的特征向量所对应的视频，确定为与第一视频相似的视频。

第二方面，本公开提供了一种视频相似度确定装置，该装置包括：

视频特征向量获取模块，用于获取待处理视频的特征向量，其中，待处理视频包括第一视频和第二视频，对于待处理视频中的各视频，视频的特征向量是通过以下方式得到的设定长度的二进制序列：

基于特征点的二进制描述子，确定视频的特征向量；

相似度确定模块，用于根据第一视频的特征向量和第二视频的特征向量，确定第一视频和第二视频的相似度。

本公开第二方面的实施例中，像素信息包括图像区域中的各像素点的像素灰度值，视频特征向量获取模块在根据特征点所在的图像区域中的像素信息，确定特征点的二进制描述子时，具体用于：

根据各像素点的灰度值，确定各像素点的第一响应值；

根据初始描述子，确定特征点的二进制描述子。

本公开第二方面的实施例中，第一响应值包括水平方向上的第二响应值和垂直方向上的第三响应值，其中，水平方向和垂直方向分别为相对于特征点的主方向的水平方向和垂直方向；

视频特征向量获取模块，在根据各像素点对应的第一响应值，确定特征点的初始描述子时，具体用于：

视频特征向量获取模块在根据初始描述子，确定特征点的二进制描述子时，具体用于：

本公开第二方面的实施例中，初始描述子为Haar小波特征。

本公开第二方面的实施例中，视频特征向量获取模块在确定视频的特征点时，具体用于：

确定视频中的各帧图像的特征点；

本公开第二方面的实施例中，第一视频为数据库中的视频，第二视频为数据库中除第一视频之外的视频，相似度确定模块还用于：

第三方面，本公开提供了一种电子设备，该电子设备包括：

处理器和存储器；

存储器，用于存储计算机操作指令；

处理器，用于通过调用计算机操作指令，执行如本公开的第一方面的任一实施例中所示的方法。

第四方面，本公开提供了一种计算机可读存储介质，该存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如本公开的第一方面的任一实施例中所示的方法。

本公开实施例提供的技术方案带来的有益效果是：

本公开实施例的视频相似度确定方法、装置、电子设备及存储介质，可将待处理视频的描述子通过二进制序列表示，由于二进制序列相对于现有技中的浮点数描述子的数据量小，因此，本方案中，通过改变视频的描述子的表达方式，可基于待处理视频中的第一视频的特征向量和第二视频的特征向量，快速确定出第一视频和第二视频的相似度，提高数据处理效率。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对本公开实施例描述中所需要使用的附图作简单地介绍。

图1为本公开的实施例提供的一种视频相似度确定方法的流程示意图；

图2为本公开的实施例提供的一种基于SURF算法确定特征点描述子的示意图；

图3为本公开的实施例提供的一种基于SURF算法确定特征点的主方向的示意图；

图4a～图4d为本公开的实施例提供的一种具有不同对比度的帧图像的示意图；

图5为本公开的实施例提供的一种视频相似度确定装置的结构示意图；

图6为本公开的实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本公开的实施例，该实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本公开的技术方案，而不能解释为对本公开的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本公开的说明书中使用的措辞“包括”是指存在该特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

现有技术中，对于大规模的视频的相似度的确定，通常是基于视频的全局特征，确定视频的特征向量，基于视频的特征向量来确定视频之间的相似度，但是，由于视频的特征向量通常通过浮点数描述，则基于视频的特征向量来进行视频相似度确定，对于大规模的视频，计算量大，可能导致数据处理效率低。另外，对于经过处理(比如，剪裁、缩放，加水印等处理)的视频的相似度的确定，现有技术中通常通过LBP(Local Binary Patterns，局部二值模式)，FENCE等算法提取图像的特征点，对于经过处理的视频，LBP，FENCE等算法的鲁棒性低，从而可能无法准确确定出视频的相似度。

下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例进行描述。

本公开的实施例提供的一种视频相似度确定方法，如图1所示，该方法可以包括：

步骤S110，获取待处理视频的特征向量，其中，待处理视频包括第一视频和第二视频，对于待处理视频中的各视频；

其中，视频的特征向量是通过以下方式得到的设定长度的二进制序列：

基于特征点的二进制描述子，确定视频的特征向量。

具体的，本公开中对待处理视频的来源不作限定，可以是任意两个需要确定相似度的视频。待处理视频的特征向量可以基于现有技术中的特征提取算法，比如，SIFT(Scale-invariant feature transform，尺度不变特征变换)算法、SURF(Speeded UpRobust Features)算法等，本公开中不再赘述。二进制序列为二进制数组成的序列，比如，01字符串。

其中，特征点所在图像区域表示的是，该特征点对应的图像中的指定区域，比如，以该特征点为圆心所确定的区域；该图像区域中包括多个像素点，可以理解的是，特征点所在图像区域的选择可以基于特征点所对应的图像的清晰度确定，清晰度越高，图像区域越小，清晰度越低，图像区域越大。可以理解的是，图像区域可以是一个完整的区域，还可以是将指定区域划分成多个子区域，其中，每个子区域即为一个图像区域，比如，以该特征点为圆心确定一个区域，将该区域划分成n*n的网格，其中，每个网格可作为一个图像区域，n为大于1的正整数。

通常特征点的描述子为浮点数，本方案中，基于图像区域对应多个像素的像素信息，将特征点的描述子(浮点数)转换为二进制描述子(整数)，可减少后续的数据处理量，其中，特征点的浮点数描述子与特征点的二进制描述子的维数可以相同，也可以不同。

步骤S120，根据第一视频的特征向量和第二视频的特征向量，确定第一视频和第二视频的相似度。

具体的，基于两个视频的特征向量，确定两个视频的相似度的方法可通过现有技术中的方法实现，比如，基于两个特征向量之间的欧式距离，或，汉明距离等算法，本公开中不在赘述。

本公开的实施例中的方案，可将待处理视频的描述子通过二进制序列表示，由于二进制序列相对于现有技中的浮点数描述子的数据量小，因此，本方案中，通过改变视频的描述子的表达方式，可基于待处理视频中的第一视频的特征向量和第二视频的特征向量，快速确定出第一视频和第二视频的相似度，提高数据处理效率。

本公开实施例中，可以通过SIFT算法或SURF算法来提取图像的特征点，由于通过SIFT算法或SURF算法提取出来的特征点具有尺度不变性，即相同的特征点在经过旋转，放大等变换后，该特征点仍然有很好地复现性，对特征点描述子有较好的鲁棒性；比如，一张图像A中的特征点A，在经过旋转后得到图像B，该特征点A在图像B中对应位置仍然可以被检测出来。因此，基于SIFT算法或SURF算法提取出来的特征点，可以对于一些经过处理的视频，比如，裁剪、缩放等处理的视频具有良好的鲁棒性，使得通过本方案确定的视频的相似度更加准确。

为了便于对本方案的理解，下文中以采用SURF算法提取视频的特征点为例进行说明。通常通过SURF算法提取的图像的每个特征点会生成一个64位的浮点数来描述这个特征点，即该特征点的描述子为64位的浮点数。其中，通过SURF算法确定一个特征点的描述子的方式具体为：

如图2所示的基于SURF确定特征点描述子的示意图，图2中实心的黑色圆表示一个特征点，该特征点通常为图像中具有鲜明特性并能够有效反映图像本质特征能够标识图像中目标物体的点，比如，图像中边缘丰富区域的特征点，图2中所示的粗箭头方向表示该特征点的主方向，则可将粗箭头方向作为垂直方向，与该垂直方向垂直的方向作为水平方向，或者，也可以将粗箭头方向作为水平方向，则垂直于该水平方向的方向作为垂直方向，图2中选择将粗箭头方向作为垂直方向，与垂直方向垂直的方向作为水平方向。

其中，确定特征点的主方向具体方式可以为：统计特征点在图像区域内的harr小波特征，即在特征点的图像区域内，统计60度扇形内所有像素点的水平haar小波特征和垂直haar小波特征总和，这样一个扇形得到了一个值。然后60度扇形以一定间隔进行旋转，最后将最大值对应的扇形的方向作为该特征点的主方向。该过程的示意图如图3所示，其中，图3中所示的三个图中对应显示出了三个扇形对应的像素点的水平haar小波特征和垂直haar小波特征总和，总和的大小通过扇形区域对应的向量(图3是所示的带箭头的线段)的长度表示，由图3中的三个图可知，图3中最右边的的扇形区域中对应的向量的长度最长，则该最右边的的扇形区域中对应的向量的方向即为该特征点的主方向。需要说明的是，上述特征点的主方向的确定方式仅为举例说明，本公开中不限定特征点主方向确定的具体实现方式。

在得到特征点之后，可以对该特征点周围的一个图像区域进行划分，比如，将该图像区域划分为如图2所示的4*4的正方形网格，针对每个网格，基于每个网格中的像素，可通过Haar小波算法统计各像素的Haar小波特征，该小波特征包括水平方向(x方向)值之和Σdx，水平方向绝对值之和Σ|dx|，垂直方向(y方向)值之和Σdy和垂直方向绝对值之和Σ|dy|。这样每个图像区域有4个值，则每个正方形网格有64维，即每个特征点的描述子是64位浮点数，其中，水平方向和垂直方向分别为相对于特征点的主方向的水平方向和垂直方向，本方案中选择将特征点的主方向作为垂直方向，将与垂直方向垂直的方向作为水平方向。

需要说明的是，上述对特征点周围的一个图像区域进行划分只是举例说明，本公开中不限定具体的划分方式，确定特征点描述子的方式也只是举例说明，本公开中也不限定具体的特征点的描述子的确定方式。

本公开的实施例中，像素信息包括图像区域中的各像素点的像素灰度值，根据特征点所在的图像区域中的像素信息，确定特征点的二进制描述子，可以包括：

根据各像素点的灰度值，确定各像素点的第一响应值；

根据初始描述子，确定特征点的二进制描述子。

具体的，图像区域的形状可以基于实际需求划分，比如，矩形，图像区域中包括多个像素点，像素点的像素灰度值的取值通常为0～255，像素点的第一响应值表示像素的像素灰度值变化。

作为一个示例，图像区域中的三个像素点对应的灰度值分别为A，B，C，该三个像素点对应的第一响应值可以为(B-A)和(C-B)，可以理解的是，第一响应值还可以为(A-B)和(B-C)，或者，各像素点的灰度值求和的平均值等，本公开中不限定确定第一响应值的具体实现方式，只要是可以反映出像素在图像区域的像素灰度值变化的计算方式均可。基于各个像素点在图像区域内的像素灰度值变化，即第一响应值，可以确定得到该特征点的初始描述子，初始描述子可以通过对各像素点的像素灰度值变化求和得到，比如，如果像素灰度值变化为(B-A)和(C-B)，则对应的初始描述子可以为Σ[(B-A)+(C-B)]，基于该特征点的初始描述子，可以对该初始描述子进行二值化处理，得到该特征点的二进制描述子。

其中，对初始描述子进行二值化处理可以基于实际需求配置，比如以0作为参考值，对初始描述子做二值化处理，一种具体的可实现方式为：初始描述子为正数时，对应的二进制描述子为1，初始描述子为负数时，对应的二进制描述子为0，则基于上述的二值化处理方式，可以基于得到的初始化描述子，对应得到该特征点的二进制描述子。

本公开的实施例中，第一响应值包括水平方向上的第二响应值和垂直方向上的第三响应值，其中，水平方向和垂直方向分别为相对于特征点的主方向的水平方向和垂直方向；

根据各像素点对应的第一响应值，确定特征点的初始描述子，可以包括：

根据第三响应值，确定初始描述子的垂直方向上的第二特征值。

具体的，如前文所描述的垂直方向和水平方向，在图像区域中，各个像素点可以按照水平方向和垂直方向确定对应的像素灰度值变化，即从两个方向体现像素点的像素灰度值变化，从两个方向体现像素点的像素灰度值变化，可以更加准确的确定出特征点的初始描述子。

作为一个示例，比如，第二响应值通过dx表示，第三响应值通过dy表示，则对应的特征点的初始描述子可以包括在水平方向上的第一特征值Σdx，以及在垂直方向上的第二特征值Σdy，即一个初始描述子可以包括两个特征值，该初始描述子可以表示为：(Σdx，Σdy)。

本公开的实施例中，根据初始描述子，确定特征点的二进制描述子，可以包括：

具体的，二进制描述子可以包括两个维度的取值(第一维度的取值和第二维度的取值)，根据第一特征值，确定二进制描述子的第一维度的取值，根据第二特征值，确定二进制描述子的第二维度的取值的一种可选的实现方式为：分别对第一特征值和第二特征值进行二值化处理后，可以得到该二进制描述子的第一维度的取值和第二维度的取值。

作为一个示例，比如，二进制描述子可以表示为：A＝[a1，a2]，其中，A表示二进制描述子，a1表示第一维度的取值，a2表示第二维度的取值，如果a1为1，a2为0，则二进制描述子可以表示为：A＝[1，0]，即一个特征点的二进制描述子为2位二进制整数，相较于通过Haar小波确定的SURF特征点的描述子(每个描述子对应4个值，Σdx，Σ|dx|，Σdy和Σ|dy|)，本公开的方案，不但将浮点数的描述子转化为二进制整数的描述子，二进制描述子仅包括两个维度的取值，即基于SURF确定的一个特征点的描述子为64位浮点数，基于本实施例确定的一个特征点的描述子为32位二进制整数，进一步降低了数据的处理量，提高数据处理效率。

本公开的实施例中，初始描述子为Haar小波特征。

具体的，初始描述子可以为Haar小波特征，即初始描述子可以包括水平方向(x方向)值之和Σdx，水平方向绝对值之和Σ|dx|，垂直方向(y方向)值之和Σdy和垂直方向绝对值之和Σ|dy|。这样，二进制描述子可以为4位二进制整数。

可以理解的是，一帧图像通常可以对应提取多个特征点，每个特征点对应一个初始描述子，则包含多帧图像的视频可以对应一个描述子集合，该描述子集合中包括多个描述子，一帧图像对应的描述子通常为200个以上。

基于视频中每帧图像的初始描述子，根据初始描述子的响应程度(所处像素周围灰度变化的剧烈程度)将200个初始描述子筛选为指定数量的描述子，比如，每帧图像对应筛选10个描述子，得到该视频的候选描述子，然后再根据候选描述子的响应程度，确定其中预设数量的描述子作为该视频的描述子集合，预设数量可以基于实际需求配置，比如，50～100个。

本公开的实施例中，确定视频的特征点，可以包括：

确定视频中的各帧图像的特征点；

具体的，在得到每帧图像的特征点之后，可以基于各帧图像的特征点在图像区域中的对比度对该各帧图像的特征点进行筛选，使得每帧图像中符合对比度要求的特征点作为该视频的特征点，筛选后，各帧图像对应的特征点中作为该视频的特征点的数量可能不同。其中，筛选后的特征点具有很好的鲁棒性，即在特征点的对比度发生变化时，该特征点仍然有很好地复现性。

对比度要求可以基于实际需求配置，比如，对比度要求可以为对比度大于预设阈值，或者，对比度在预设对比度范围之内，符合对比度要求的特征点所含的信息量相对丰富，可以选作为该视频的特征点。针对不同帧图像的特征点，如果对比度要求为对比度大于预设阈值，筛选各帧图像的特征点的一种可选实现方式为：选择对比度大于预设阈值的特征点作为该视频的特征点，如果一个特征点在图像区域中的对比度小于预设阈值，则可能表明该特征点在图像区域中所处像素点周围灰度变化平稳，包含的信息量少，该特征点不能选作为该视频的特征点。基于上述的方式对各帧图像的特征点进行筛选，使得最终确定得到的视频的特征点可以更加准确的体现出该视频的特点。

本公开的实施例中，可以通过特征点在图像区域中的对比度衡量该特征点的描述子的响应程度，描述子的响应程度表示的是该特征点在图像区域中所处像素点周围灰度变化的剧烈程度，对比度越大，响应程度越高，灰度变化越剧烈，变化越剧烈可能表示该特征点的鲁棒性越好，所包含的图像的信息量越丰富，则可以将该特征点的描述子选作为该视频的描述子(初始描述子)。

本公开的实施例中，可以通过特征点的响应得分衡量该特征点在图像区域中的对比度与该特征点的描述子的响应程度，其中，响应得分、对比度和响应程度成正比，即对比度越高，响应得分越高；响应程度越高，响应得分越高，作为一个示例，比如，响应得分为S，响应程度为R，对比度为C，响应得分、对比度和响应程度的正比关系表示为：S＝RC，由S＝RC可知，响应程度R越大，响应得分S的值越大，对比度C越大，响应得分S的值越大。

本公开的实施例中，为了避免视频的特征点中，有过多的特征点来自于同一帧图像，无法从整体上体现该视频的特征，可以配置一个数量阈值，使得各帧图像中的特征点可以作为该视频的特征点的个数不大于该数量阈值。

作为一个示例，图4a至图4d为某视频中的4帧图像，视频中的4帧图像分别为图4a，图4b，图4c和图4d，由图中所示的4帧图像可知，中间两幅图像(图4b和图4c)整体灰暗，该中间两幅图像包含的信息量可能较少，而两边的帧图像(图4a和图4d)整体偏亮，包含的信息含量相对丰富，如果从该4帧图像中每帧图像对应确定的特征点的数量为10个，基于各帧图像中的特征点在图像区域中的对比度，则可以基于这4帧图像中所有的特征点在图像区域中的对比度的排序，选择对比度中取值大的前n个对比度对应的特征点作为该视频的特征点，且每帧图像中选择作为该视频的特征点的个数不大于数量阈值，其中，n可以基于实际需求配置，n为正整数。其中，从图4a和图4d中确定出作为该视频的描述子的个数要大于从图4b和图4c中确定出作为该视频的描述子的个数。

一种选取各帧图像中的符合对比度要求的特征点作为该视频的特征点的方式可以为：如果数量阈值为8，图4a中的10个特征点在图像区域中的对比度均符合对比度要求，图4d的10个特征点中有9个特征点在图像区域中的对比度符合对比度要求，图4b和图4c中均有5个特征点在图像区域中的对比度符合对比度要求，则可以从图4a和图4d中确定作为该视频的特征点的个数分别为7个，而从图4b和图4c中确定出作为该视频的描述子的个数分别为3个。

本公开的实施例中，确定视频的特征点，可以包括：

确定视频中的各帧图像的特征点；

具体的，在视频的各帧图像中，对于一些在各帧图像中常出现的特征，对应的可能是同一个信息的特征，比如，同一个LOGO，则对于该同一个信息对应的特征，可能不能很好的表述图像本身的信息，则对于该视频中的各帧图像的特征点，可以基于特征点在各帧图像中出现的次数，对各帧图像的特征点进行筛选，其中，基于特征点在各帧图像中出现的次数，对各帧图像的特征点进行筛选的一种具体的筛选方式可以为：将出现次数大于预设阈值的特征点从各帧图像的特征点中删除，得到视频的特征点，预设阈值可基于实际需求配置。

在实际应用中，可以统计一段时间内的多个视频中的各帧图像的特征点，基于所有特征点在各帧图像中出现的次数，将出现次数大于预设阈值的特征点对应配置一定的权重，则在确定某个视频的特征点时，可以基于预先配置的权重，自动将出现次数大于预设阈值的特征点删除，使得最终确定得到的视频的特征点更能准确的反映视频的特征。

本公开的实施例中，第一视频为数据库中的视频，第二视频为数据库中除第一视频之外的视频，该方法还可以包括：

具体的，可以预先基于数据库中视频的特征向量，即设定长度的二进制序列建立倒排索引，然后基于建立好的倒排索引和第一视频的特征向量，可以从第二视频中确定与第一视频相似的视频。由于建立了倒排索引，不需要将第一视频的特征向量与第二视频中各视频的特征向量一一作比较，可以进一步提高数据的处理效率。

其中，倒排索引的建立过程可以为：

1、获取数据库中的多个视频；

2、对于多个视频中的每个视频，选取一个视频中的帧图像，帧图像通常为多张图像；视频中的帧图像可以通过以下任一种方式确定：

第一种方式，将视频中的全部帧图像作为该视频的帧图像；第二种方式，从视频中均匀抽取相应的图像作为帧图像，比如，按照预设间隔从视频中抽取对应的图像作为帧图像，预设间隔可以基于实际需求配置，比如，预设间隔为5，则每隔5帧图像抽取一张图像作为该视频的帧图像；第三种方式，按照关键帧从视频中抽取对应的图像作为帧图像，关键帧可以基于实际需求配置，比如，关键帧为第5帧，第25帧，第38帧，则对应抽取视频中的第5帧，第25帧，第38帧作为该视频的帧图像。

3、提取所确定的帧图像的特征点，本公开中不限定图像的特征点的提取方法。

4、基于帧图像的特征点在各帧图像中出现的次数，对帧图像的特征点进行筛选，将特征点出现次数大于预设阈值的特征点删除，得到视频的特征点；

5、在基于特征点在各帧图像中出现的次数对各帧图像的特征点进行筛选时，还可以基于各帧图像中的特征点在图像区域中的对比度，对各帧图像的特征点进行筛选，具体为将各帧图像中特征点在图像区域中的对比度大于预设阈值的特征点选作为该视频的特征点，并且，为了避免视频的特征点中，有过多的特征点来自于同一帧图像，无法从整体上体现该视频的特征，每帧图像中的特征点选作为视频的特征点的个数不大于数量阈值；

需要说明的是，上述步骤4和步骤5在具体执行时，不限定具体执行的顺序，具体可基于实际需求确定执行顺序，比如，步骤5可以在步骤4之前执行。

6、基于经过筛选的各帧图像的特征点，确定各特征点对应的描述子(64维浮点数)，每一帧图像有对应描述子的集合(通常200个以上)；

7、基于每帧图像的描述子的响应程度(特征点所处像素周围灰度变化的剧烈程度)，将每帧图像的描述子的个数进行筛选，比如，筛选至10个，将这10个描述子由64位浮点数变为32位01串，得到32位整型数作为该描述子的哈希码。

8、将该视频中各帧图像的哈希码(描述子)，再次根据描述子的响应程度进行筛选，直到该视频的哈希码的数量到一个合理的范围(50～100个)。

9、基于上述方式，可以得到上述多个视频的哈希码，则基于该多个视频的哈希码，可以建立倒排索引，建立好的倒排索引中包括每个哈希码对应的拥有该哈希码的视频标识，视频标识可以基于实际需求配置，比如视频名称，视频编号等。

作为一个示例，倒排索引可以表示为：

哈希码1，视频A，视频B，视频E…

哈希码2，视频A，视频C，视频F…

哈希码n，视频C，视频D，…

其中，视频A，视频B等作为视频标识。

基于上述建立好的倒排索引，可以基于某个视频的特征向量，设定长度的二进制序列作为该视频的哈希码，基于该哈希码以及该倒排索引，确定出于该视频相似的视频，相似视频即为与该视频的二进制描述子(哈希码)具有至少一个维度的相同取值的二进制描述子(哈希码)所对应的视频。

本公开的实施例中，待处理视频为数据库中的视频，或者，获取待处理视频，可以包括：获取搜索关键词，基于搜索关键词获取搜索结果，待处理视频为搜索结果中的视频。

在实际应用中，基于不同的应用场景，待处理视频的来源可以不同，比如，待处理视频可以为数据库中的视频，则可以基于本公开的方案确定数据库中相似的视频。

待处理视频还可以是基于搜索关键词确定得到的视频，即基于搜索关键词确定搜索结果，在该搜索结果中可能包含相似的视频，则可将搜索结果中的视频作为待处理视频。

本公开的实施例中，若待处理视频为搜索结果中的视频，在根据第一视频的特征向量和第二视频的特征向量，确定第一视频和第二视频的相似度之后，该方法还可以包括：

基于第一视频和第二视频的相似度以及设定阈值，确定搜索结果中的相似视频；

基于相似视频，对搜索结果进行去重。

具体的，设定阈值可以基于实际需求配置，若第一视频和第二视频的相似度大于设定阈值，则可以表示这两个视频相似，反之，如果第一视频和第二视频的相似度不大于设定阈值，则可以表示这两个视频不相似，则基于确定两个视频相似度的方式，可以确定出数据库中包括的所有视频中的相似视频，基于相似视频，可以对搜索结果进行去重，最后将去重后的搜索结果展示给用户。

或者，在确定出相似的视频之后，如果想对数据库中的某些相似视频进行下架处理时，可以基于确定出的相似视频，将这些相似视频从数据库中删除。

基于与图1中所示方法相同的原理，本公开的实施例中还提供了一种装置20，如图5所示，该装置20可以包括：视频特征向量获取模块210以及相似度确定模块220，其中：

视频特征向量获取模块210，用于获取待处理视频的特征向量，其中，待处理视频包括第一视频和第二视频，对于待处理视频中的各视频；

基于特征点的二进制描述子，确定视频的特征向量；

相似度确定模块220，用于根据第一视频的特征向量和第二视频的特征向量，确定第一视频和第二视频的相似度。

本公开的实施例中，像素信息包括图像区域中的各像素点的像素灰度值，视频特征向量获取模块210在根据特征点所在的图像区域中的像素信息，确定特征点的二进制描述子时，具体用于：

根据各像素点的灰度值，确定各像素点的第一响应值；

根据初始描述子，确定特征点的二进制描述子。

视频特征向量获取模块210在根据各像素点对应的第一响应值，确定特征点的初始描述子时，具体用于：

视频特征向量获取模块210在根据初始描述子，确定特征点的二进制描述子时，具体用于：

本公开的实施例中，初始描述子为Haar小波特征。

本公开的实施例中，视频特征向量获取模块210在确定视频的特征点时，具体用于：

确定视频中的各帧图像的特征点；

本公开的实施例中，第一视频为数据库中的视频，第二视频为数据库中除第一视频之外的视频，相似度确定模块220还用于：

本公开实施例的视频相似度确定装置可执行图1所示的一种视频相似度确定方法，其实现原理相类似，本公开各实施例中的视频相似度确定装置中的各模块所执行的动作是与本公开各实施例中的视频相似度确定方法中的步骤相对应的，对于视频相似度确定装置的各模块的详细功能描述具体可以参见前文中所示的对应的视频相似度确定方法中的描述，此处不再赘述。

基于与本公开的实施例中的方法相同的原理，本公开提供了一种电子设备，该电子设备包括处理器和存储器；存储器，用于存储操作指令；处理器，用于通过调用操作指令，执行如本公开的方法中的任一实施例中所示的方法。

基于与本公开的实施例中的方法相同的原理，本公开提供了一种计算机可读存储介质，该存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如本公开的数据处理方法中的任一实施例中所示的方法。

本公开的实施例中，如图6所示，其示出了适于用来实现本公开实施例的电子设备50(例如实现图1中所示的方法的终端设备或服务器)的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备50可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备30操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备50与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备50，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述方法实施例所示的方法；或者，上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述方法实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种视频相似度确定方法，其特征在于，包括：

获取待处理视频的特征向量，其中，所述待处理视频包括第一视频和第二视频，对于所述待处理视频中的各视频，视频的特征向量是通过以下方式得到的设定长度的二进制序列：

确定所述视频的特征点，所述视频的特征点是基于所述视频中帧图像的特征点确定的；

对于各所述特征点中的每个特征点，根据所述特征点所在的图像区域中的像素信息，确定所述特征点的二进制描述子；

基于所述特征点的二进制描述子，确定所述视频的特征向量；

根据所述第一视频的特征向量和所述第二视频的特征向量，确定所述第一视频和所述第二视频的相似度。

2.根据权利要求1所述的方法，其特征在于，所述像素信息包括所述图像区域中的各像素点的像素灰度值，所述根据所述特征点所在的图像区域中的像素信息，确定所述特征点的二进制描述子，包括：

根据各所述像素点的灰度值，确定各所述像素点的第一响应值；

根据各所述像素点对应的第一响应值，确定所述特征点的初始描述子；

根据所述初始描述子，确定所述特征点的二进制描述子。

3.根据权利要求2所述的方法，其特征在于，所述第一响应值包括水平方向上的第二响应值和垂直方向上的第三响应值，其中，所述水平方向和所述垂直方向分别为相对于特征点的主方向的水平方向和垂直方向；

所述根据各所述像素点对应的第一响应值，确定所述特征点的初始描述子，包括：

根据所述第二响应值，确定所述初始描述子的水平方向上的第一特征值；

根据所述第三响应值，确定所述初始描述子的垂直方向上的第二特征值；

所述根据所述初始描述子，确定所述特征点的二进制描述子，包括：

根据所述第一特征值，确定所述二进制描述子的第一维度的取值，根据所述第二特征值，确定所述二进制描述子的第二维度的取值。

4.根据权利要求3所述的方法，其特征在于，所述初始描述子为Haar小波特征。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述确定所述视频的特征点，包括：

确定所述视频中的各帧图像的特征点；

根据所述特征点在所述图像区域中的对比度，对所述各帧图像的特征点进行筛选，得到所述视频的特征点。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述确定所述视频的特征点，包括：

确定所述视频中的各帧图像的特征点；

基于所述特征点在所述各帧图像中出现的次数，对所述各帧图像的特征点进行筛选，得到所述视频的特征点。

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述第一视频为数据库中的视频，所述第二视频为所述数据库中除所述第一视频之外的视频，所述方法还包括：

获取倒排索引，所述倒排索引为基于所述数据库中的视频的设定长度的二进制序列建立的；

基于所述第一视频的特征向量，以及所述倒排索引，将所述第二视频中与所述第一视频的特征向量具有至少一个维度的相同取值的特征向量所对应的视频，确定为与所述第一视频相似的视频。

8.一种视频相似度确定装置，其特征在于，包括：

视频特征向量获取模块，用于获取待处理视频的特征向量，其中，所述待处理视频包括第一视频和第二视频，对于所述待处理视频中的各视频，视频的特征向量是通过以下方式得到的设定长度的二进制序列：

相似度确定模块，用于根据所述第一视频的特征向量和所述第二视频的特征向量，确定所述第一视频和所述第二视频的相似度。

9.一种电子设备，其特征在于，包括：

处理器和存储器；

所述存储器，用于存储计算机操作指令；

所述处理器，用于通过调用所述计算机操作指令，执行权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现权利要求1至7中任一项所述的方法。