CN107077590B

CN107077590B - 用于比较视频镜头的方法和系统

Info

Publication number: CN107077590B
Application number: CN201480083344.1A
Authority: CN
Inventors: S·莱普索伊; M·巴勒斯特里; G·弗兰希尼
Original assignee: Telecom Italia SpA
Current assignee: Telecom Italia SpA
Priority date: 2014-10-13
Filing date: 2014-10-13
Publication date: 2021-03-30
Anticipated expiration: 2034-10-13
Also published as: US20170249516A1; EP3207495B1; CN107077590A; US10354143B2; EP3207495A1; WO2016058626A1

Abstract

一种用于将包括第一图像的第一集合(I1(s))的第一视频镜头(Vs1)与包括第二图像的第二集合(I2(t))的第二视频镜头(Vs2)进行比较的方法(100)，第一集合和第二集合之间的至少一个包括至少两个图像。该方法包括将第一集合的每个第一图像与第二集合的每个第二图像配对(110)以形成多个图像对(IP(m))，以及，对于每个图像对，实施操作a)‑g)：a)识别(120)第一图像中的第一兴趣点和第二图像中的第二兴趣点；b)将第一兴趣点与对应的第二兴趣点相关联(120)以形成对应的兴趣点匹配；c)对于每对第一兴趣点，计算(130)该对第一兴趣点之间的距离以用于获得对应的第一长度；d)对于每对第二兴趣点，计算(130)该对第二兴趣点之间的距离以用于获得对应的第二长度；e)计算多个距离比(130)，每个距离比对应于选定的兴趣点匹配对，并且是基于第一项与第二项之比或者基于第二项与第一项之比，所述第一项对应于所述兴趣点匹配对的第一兴趣点之间的距离，所述第二项对应于所述兴趣点匹配对的第二兴趣点之间的距离；f)计算(140)多个计算距离比的统计分布的第一表示；g)计算(150)在所述图像对中的所有兴趣点匹配都是离群点的假设下获得的距离比的统计分布的第二表示。该方法还包括基于所有图像对的第一表示来生成(160)对所有图像对计算的多个计算距离比的统计分布的第一全局表示；基于所有图像对的第二表示来生成(170)在所有图像对中的所有兴趣点匹配都是离群点的假设下获得的距离比的统计分布的第二全局表示；将所述第一全局表示与所述第二全局表示进行比较(180)；并且基于所述比较来评估(190)第一视频镜头是否包含第二视频镜头中所描绘的物体的视图。

Description

用于比较视频镜头的方法和系统

技术领域

本发明涉及图像分析领域。

背景技术

在图像分析领域中，常见操作提供在两个图像都包括相同场景或相同物体的至少一部分的情况下将这两个图像进行比较以便找到在它们之间蕴含(occur)的关系。

用于确定两个图像是否显示相同物体的已知方法提供选择第一图像中的所谓兴趣点的集合、然后将该集合或者其子集的每个兴趣点与第二图像中的对应兴趣点匹配(通常，该集合的选定兴趣点中的一些由于模糊性(ambiguity)而可能不能被匹配)。第一图像的哪个点应成为兴趣点的选择是通过考虑该图像围绕该点本身的区域中的图像特征来实施的。

如本领域技术人员众所周知的，如果第一图像的兴趣点和第二图像的对应兴趣点之间的匹配从两个兴趣点都对应于相同物体(在两个图像中都被描绘)的相同点的意义上来讲是正确的，则这样的兴趣点匹配被称为“内群点”。

相反，如果第一图像的兴趣点和第二图像的对应兴趣点之间的匹配从两个兴趣点不对应于相同物体的相同点的意义上来讲是不正确的，则这样的兴趣点匹配被称为“离群点”。

因此，为了获得可靠的结果，能够区分内群点和离群点的过程在兴趣点匹配已经被确定之后被有利地执行。

这种类型的过程的数个例子在本领域中已经是已知的，诸如例如以本申请人的名义的专利申请WO 2012/100819中公开的图像比较方法。

图像分析领域中的另一常见操作提供在两个视频镜头或者图像和视频镜头两者都包括相同场景或相同物体的至少一部分的情况下将视频镜头进行比较或者将单个图像与视频镜头的图像进行比较以便找到在它们之间蕴含的关系。

例如，A.Araujo、M.Makar、V.Chandrasekhar、D.Chen、S.Tsai、H.Chen、R.Angst、B.Girod在2014年10月IEEE International Conference on Image processing上的″Efficient video search using image queries″公开了一种将图像与视频镜头进行比较的方法，该方法使用随机采样一致性(RANSAC)迭代方法来检查几何一致性。

F.Rothganger、S.Lazebnik、C.Schmid和J.Ponce在2007年IEEE Transactions onPattern Analysis and Machine Intelligence，29(3)第477-491页上的″Segmenting，modeling，and matching video clips containing multiple moving 0bjects″中公开的方法提供了一种用于识别视频片段中的描绘相同场景的镜头的方法。在这种情况下，同样地使用RANSAC方法来检查几何一致性。

发明内容

申请人已经发现，本领域中已知的用于对视频镜头进行比较或者将单个图像与视频镜头的图像进行比较的解决方案受严重的缺点的影响。在视频镜头包括非常小的物体时和/或在视频镜头包括不详细的物体的情况下，已知解决方案缺乏鲁棒性。事实上，在这些情况下，只有少量兴趣点可以在所述物体内被识别，使得在比较操作期间可能无法识别这些物体。

申请人已经解决了如何就鲁棒性而言改进已知解决方案的问题。

申请人已经发现，给定两个视频镜头，每个视频镜头包括相应的图像组或图像集合，通过彼此累积与包括第一视频镜头的图像和第二视频镜头的图像的每个图像对相对应的兴趣点距离比的直方图，可以计算全局直方图，该全局直方图表示对所有图像对计算的距离比的统计分布。由于所述累积，与细节少和/或不佳的物体相对应的很少的选定兴趣点的贡献明显增大。

本发明的一方面提供了一种用于将包括第一图像的第一集合的第一视频镜头与包括第二图像的第二集合的第二视频镜头进行比较的方法，第一集合和第二集合之间的至少一个包括至少两个图像，该方法包括将第一集合的每个第一图像与第二集合的每个第二图像配对以形成多个图像对。该方法还包括，对于每个图像对，实施操作a)-g)：

a)识别第一图像中的第一兴趣点和第二图像中的第二兴趣点；

b)将第一兴趣点与对应的第二兴趣点相关联以形成对应的兴趣点匹配；

c)对于每对第一兴趣点，计算该对第一兴趣点之间的距离以用于获得对应的第一长度；

d)对于每对第二兴趣点，计算该对第二兴趣点之间的距离以用于获得对应的第二长度；

e)计算多个距离比，每个距离比对应于选定的兴趣点匹配对，并且是基于第一项与第二项之比或者基于第二项与第一项之比，所述第一项对应于所述兴趣点匹配对的第一兴趣点之间的距离，所述第二项对应于所述兴趣点匹配对的第二兴趣点之间的距离；

f)计算多个计算距离比的统计分布的第一表示；

g)计算在所述图像对中的所有兴趣点匹配都是离群点的假设下获得的距离比的统计分布的第二表示。

该方法还包括基于所有图像对的第一表示来生成对所有图像对计算的多个计算距离比的统计分布的第一全局表示，并且基于所有图像对的第二表示来生成在所有图像对中的所有兴趣点匹配都是离群点的假设下获得的距离比的统计分布的第二全局表示。该方法还包括将所述第一全局表示与所述第二全局表示进行比较，并且基于所述比较来评估第一视频镜头是否包含第二视频镜头中所描绘的物体的视图。

根据本发明的实施例，操作f)提供将多个距离比布置在具有多个有序区间的对应的图像对直方图中，每个有序区间对应于距离比值的相应间隔，图像对直方图对于每个区间确定具有被包括在相应间隔内的值的计算距离比的对应数量。

根据本发明的实施例，操作提供生成图像对离群点概率质量函数，该图像对离群点概率质量函数对于所述区间中的每个包括：在所有兴趣点匹配都是离群点的假设下距离比具有落在所述区间内的值的概率。

根据本发明的实施例，基于所有图像对的第一表示来生成对所有图像对计算的多个计算距离比的统计分布的第一全局表示的阶段包括基于图像对直方图来生成全局直方图，所述全局直方图指示对所有图像对计算的距离比的值在区间之间是如何分布的。

根据本发明的实施例，基于所有图像对的第二表示来生成在所有图像对中的所有兴趣点匹配都是离群点的假设下获得的距离比的统计分布的第二全局表示的阶段包括通过组合图像对离群点概率质量函数来生成全局离群点概率质量函数。

根据本发明的实施例，将所述第一全局表示与所述第二全局表示进行比较的阶段包括将所述全局直方图与所述全局离群点概率质量函数进行比较。

根据本发明的实施例，基于图像对直方图生成全局直方图的阶段包括对于多个有序区间中的每个区间，对与所有图像对直方图的该区间相对应的计算距离比的数量进行求和。

根据本发明的实施例，生成图像对离群点概率质量函数的阶段包括计算图像对离群点概率质量函数的线性组合。

根据本发明的实施例，将所述第一全局表示与所述第二全局表示进行所述比较包括执行Pearson检验。

根据本发明的实施例，所述计算距离比提供计算距离比的对数。

本发明的另一方面提供一种视频镜头比较系统，该视频镜头比较系统包括被配置为接收包括第一图像的第一集合的第一视频镜头并且识别第一图像中的第一兴趣点的第一单元和存储多个第二视频镜头的参考数据库，其中每个第二视频镜头包括第二图像的相应的第二集合；

该视频镜头比较系统进一步包括第二单元，该第二单元被配置为对于每个第二视频镜头、并且对于包括所述第二视频镜头的第二图像和第一视频镜头的第一图像的每个图像对，将所述第一图像中的第一兴趣点与所述第二图像中的第二兴趣点相关联以便形成对应的兴趣点匹配。该视频镜头比较系统进一步包括第三单元，该第三单元被配置为对于每个第二视频镜头并且对于包括所述第二视频镜头的第二图像和第一视频镜头的第一图像的每个图像对：

-对于每对第一兴趣点，计算该对第一兴趣点之间的距离以用于获得对应的第一长度；

-对于每对第二兴趣点，计算该对第二兴趣点之间的距离以用于获得对应的第二长度；

-计算多个距离比，每个距离比对应于选定的兴趣点匹配对，并且是基于第一项与第二项之比或者基于第二项与第一项之比，所述第一项对应于所述兴趣点匹配对的第一兴趣点之间的距离并且所述第二项对应于所述兴趣点匹配对的第二兴趣点之间的距离；

-计算多个计算距离比的统计分布的第一表示；

-计算在图像对中的所有兴趣点匹配都是离群点的假设下获得的距离比的统计分布的第二表示。

该视频镜头比较系统进一步包括第四单元，该第四单元被配置为对于每个第二视频镜头：

-基于包括所述第二视频镜头的第二图像的所有图像对的第一表示来生成对包括所述第二视频镜头的第二图像的所有图像对计算的多个计算距离比的统计分布的第一全局表示；

-基于包括所述第二视频镜头的第二图像的所有图像对的第二表示来生成在包括所述第二视频镜头的第二图像的所有图像对中的所有兴趣点匹配都是离群点的假设下获得的距离比的统计分布的第二全局表示。

该视频镜头比较系统进一步包括第五单元，该第五单元被配置为对于每个第二视频镜头，将对应的第一全局表示与对应的第二全局表示进行比较，并且基于所述比较来评估是否存在包含第一视频镜头中所描绘的物体的视图的第二视频镜头。

附图说明

通过要结合附图阅读的以下对本发明的一些示例性的而非限制性的实施例的描述，将使本发明的这些及其他特征和优点清楚，其中：

图1示出根据本发明的实施例的视频镜头比较方法的主要阶段；

图2示出示例性的多个图像对；

图3示出图2的图像对的第一图像中的兴趣点的集合与相同图像对的第二图像中的兴趣点的集合匹配的例子；

图4示意性地示出其中根据本发明的实施例的方法可以被利用来实现根据本发明的实施例的视觉搜索服务的可能的场景；

图5A示出实现根据本发明的实施例的视觉搜索服务的系统；以及

图5B示出实现根据本发明的另一实施例的视觉搜索服务的系统。

具体实施方式

图1示出根据本发明的实施例的新颖的视频镜头比较方法100的主要阶段，该视频镜头比较方法100适于评估两个视频镜头Vs1、Vs2是否包含相同物体的视图。如G.Davenport、T.A.Smith和N.Pincever在1991年IEE Computer Graphics andApplication第11卷第4期第67-74页上的“Cinematic primitives for multimedia”中所指定的，视频镜头是连续生成并记录的并且表示时间和空间中的连续动作的图像(帧)序列。

方法100的第一阶段(图1的方框110)提供从第一视频镜头Vs1选择a个图像的第一集合、从第二视频镜头Vs2选择b个图像的第二集合(其中，a和b中的至少一个大于1)、并且通过将第一集合的每个图像与第二集合的每个图像配对来形成多个M＝a*b个图像对IP(m)(m＝1至M)。

图2示出第一视频镜头Vs1的图像的第一集合包括a＝4个图像I1(s)(s＝1至4)并且第二视频镜头Vs2的图像的第二集合包括b＝3个图像I2(t)(t＝1至3)的例子。在这种情况下，形成M＝12个图像对IP(m)，每个图像对包括第一集合的图像I1(s)和第二集合的图像I2(t)：

方法100的第二阶段(图1的方框120)提供对于M个图像对IP(m)中的每个选择图像对IP(m)的第一图像I1(s)中的兴趣点x_i的集合和图像对IP(m)的第二图像I2(t)中的兴趣点y_i的集合、然后将第一图像I1(s)的每个兴趣点x_i与第二图像I2(t)的对应兴趣点y_i匹配，得出L_m个匹配。如本领域技术人员众所周知的，图像I1(s)、I2(t)的哪些点必须成为兴趣点x_i、y_i的选择可以通过利用已知过程(诸如例如以本申请人的名义的专利申请PCT/EP2014/065808中公开的过程或专利US6,711,293中公开的过程)考虑图像的围绕该点本身的区域的局部特征来实施。

图3示出图像对IP(m)的第一图像I1(s)中的L_m＝9个兴趣点x_i(i＝1至9)与相同图像对IP(m)的第二图像I2(t)的L_mm＝9个兴趣点y_i(i＝1至9)匹配的例子(其中兴趣点x₁与兴趣点y₁匹配，兴趣点x₂与兴趣点y₂匹配，以此类推)。

方法100的下一阶段(图1的方框130)提供对于M个图像对IP(m)中的每个图像对的在前一阶段中形成的每个兴趣点匹配对{(x_i，y_i)，(x_j，y_j)}，计算在由Sam S.Tsai、DavideChen、Gabriel Takacs、Vijay Chandrasekhar、Ramakrishna Vedantham、RadekGrzeszczuk、Bernd Girod在2010年10月International Conference on ImageProcessing上的“Fast geometric re-ranking for image-based retrieval”中提出的所谓的对数距离比(简称为LDR)：

其中，x_i表示通用图像对IP(m)的第一图像I1(s)中的通用第i兴趣点x_i的坐标，y_i表示相同图像对IP(m)的第二图像I2(t)中的与第一图像I1(s)中的兴趣点x_i匹配的第i兴趣点y_i的坐标，x_j表示相同图像对IP(m)的第一图像I1(s)中的不同的通用第j兴趣点x_j的坐标，并且y_j表示相同图像对IP(m)的第二图像I2(t)中的与第一图像I1(s)中的兴趣点x_j匹配的第j兴趣点y_j的坐标。兴趣点必须是不同的，即，x_i≠x_j，并且y_i≠y_j，并且对于i＝j，LDR是未定义的。LDR是长度比的函数，是相似性的不变量。由于对数算子的存在，如果图像对IP(m)的第一图像I1(s)与相同图像对IP(m)的第二图像I2(t)交换，(x成为y，反之亦然)，则LDR简单地反号(reverse sign)。给定通用图像对IP(m)的L_m个匹配的兴趣点(x_i，y_i)的集合(包括该对的第一图像I1(s)中的L_m个兴趣点x_i和该对的第二图像I2(t)中的L_m个对应兴趣点y_i)，存在数量

个不同的LDR。

方法100的下一阶段(图1的方框140)包括对于每个图像对IP(m)收集在前一阶段生成的对应的N_m个LDR以便计算其统计分布的对应的第一表示。根据本发明的实施例，对每个图像对IP(m)收集的N_m个LDR的统计分布的所述第一表示是直方图，在本文中被称为图像对直方图g_m。用这种方式，生成M个图像对直方图g_m(m＝1至M)，即，每一个图像对IP(m)一个相应的图像对直方图g_m。

每个图像对直方图g_m示出已经对对应图像对IP(m)计算的N_m个LDR的值是如何分布的。图像对直方图g_m是以频率阵列的形式表达的：

其中每个LDR可以取被包括在K个预先定义的有序间隔T₁，…，T_k，...，T_K(以下称为区间)内的值，并且g_m(k)是其值落在第k区间T_k内的(对图像对IP(m)计算的)LDR的数量。

对于每个图像对直方图g_m，其直方图分量g_m(k)的和等于对对应的图像对IP(m)计算的LDR的数量N_m：

g_m(1)+…+g_m(k)+....+g_m(K)＝N_m。

对从两个视频镜头Vs1和Vs2获得的所有图像对IP(m)计算的LDR的总数量N等于：

N＝N₁+…+N_m+…+N_M。

方法100的下一阶段(图1的方框150)包括对于每个图像对IP(m)计算在该图像对中的所有兴趣点匹配都是离群点的假设下获得的LDR的统计分布的对应的第二表示。根据本发明的实施例，在图像对中的所有兴趣点匹配都是离群点的假设下获得的LDR的统计分布的所述第二表示是概率质量函数，被称为图像对离群点概率质量函数p_m：

其中，p_m(k)是在对于第m图像对IP(m)的所有兴趣点匹配都是离群点的假设下使用兴趣点匹配对{(x_i，y_i)，(x_j，y_j)}从所述图像对IP(m)计算的LDR具有落在第k区间T_k内的值的概率。各种图像对离群点概率质量函数p_m可以基于其闭型如下的离群点概率密度函数的离散化(discretization)来计算：

其中，z是LDR值，并且d是图像中的兴趣点的坐标的标准差之间的比(参见S.Lepsoy、G.Francini、G.Cordara和P.P.de Gusmao在IEEE 2011年IEEE InternationalConference on Multimedia and Expo(ICME)第1-6页上的“Statistical modelling ofoutliers for fast visual search”的方程(6))。换言之，与图像对IP(m)相对应的每个图像对离群点概率质量函数p_m是使用兴趣点匹配对{(x_i，y_i)，(x_j，y_j)}计算的LDR的概率质量函数，该兴趣点匹配对{(x_i，y_i)，(x_j，y_j)}是通过以随机的方式从所述图像对IP(m)选择兴趣点获得的。

必须认识到，与两个不同的图像对IP(m)相对应的图像对离群点概率质量函数p_m可以是彼此不同的，这依赖于这两个图像对IP(m)的兴趣点x_i、y_i的实际布置。

直到现在描述的方法100的阶段(图1的方框110-150)注重已经以独立的方式、即在不考虑在它们之间蕴含的关系的情况下对每个图像对IP(m)实施的操作。

方法100的接下来的阶段(图1的方框160-190)反而注重所有的图像对IP(m)一起被考虑。

方法100的具有所述特征(方框160)的第一阶段提供生成对所有图像对IP(m)计算的LDR值的统计分布的全局表示。根据本发明的实施例，所述全局表示是进一步的直方图，在本文中被称为全局直方图g，该全局直方图g指示对所有图像对IP(m)计算的LDR的值在K个区间T₁，…，T_k，...，T_K之间是如何分布的。全局直方图g是以以下方式生成的：

g＝g₁+…+g_m+…+g_M＝[g(1)，…，g(k)，…，g(K)]

其中：

g(k)＝g₁(k)+…+g_m(k)+…+g_M(k)

是(通过考虑所有图像对IP(m))其值落在第k区间T_k内的LDR的数量。

所述方法的下一阶段(方框170)提供生成在所有图像对IP(m)中的所有兴趣点匹配都是离群点的假设下获得的LDR值的统计分布的全局表示。根据本发明的实施例，所述全局表示是进一步的概率质量函数，在本文中被称为全局离群点概率质量函数p，该函数是通过所有图像对IP(m)的图像对离群点概率质量函数p_m的线性组合生成的：

p＝[p(1)，…，p(k)，…，p(K)]，

其中：

其中p(k)是在所有图像对IP(m)的所有兴趣点匹配都是离群点的假设下使用兴趣点匹配对{(x_i，y_i)，(x_j，y_j)}从通用图像对IP(m)计算的LDR具有落在第k区间T_k内的值的概率。

换言之，全局离群点概率质量函数p是使用兴趣点匹配对{(x_i，y_i)，(x_j，y_j)}计算的LDR的概率质量函数，该兴趣点匹配对{(x_i，y_i)，(x_j，y_j)}是通过以随机的方式从图像对IP(m)中的任何一个选择兴趣点获得的。

该方法的下一阶段(图1的方框180)提供将全局直方图g(其指示对从要被比较的两个视频镜头Vs1和Vs2获得的所有图像对IP(m)计算的LDR的值是如何分布的)与全局离群点概率质量函数p(其指示如果从所有图像对IP(m)选择了错误的(即，随机的)兴趣点匹配时LDR的值是如何分布的)进行比较。通过估计全局直方图g和全局离群点概率质量函数p之间的形状上的差异来实施该比较。

事实上，全局直方图g的由于错误匹配而导致的分量将具有与全局离群点概率质量函数p的形状类似的形状，而全局直方图g的由于正确匹配而导致的分量将具有与全局离群点概率质量函数p的形状不同的形状。

通过在R.J.Larsen和M.L.Marx在New Jersey，Prentice-Hall 1986年第二版第402-403页上的“An introduction to Mathematical Statistics and itsApplications”公开的已知的Pearson检验来估计直方图g和全局离群点概率质量函数p之间的形状上的差异。

以以下方式计算Pearson检验统计数据c：

全局直方图g的形状越类似于全局离群点概率质量函数p的形状，Pearson检验统计数据c的值越低。

为了该目的，方法100的下一阶段(图1的方框190)提供检查上面计算的Pearson检验统计数据c是高于还是低于阈值TH。

如果Pearson检验统计数据c低于阈值TH(方框190的退出分支“否”(N))，则意味着全局直方图g的形状足够类似于全局离群点概率质量函数p的形状以假定M个图像对IP(m)之间的兴趣点匹配是错误的(即，离群点)。在这种情况下，视频镜头Vs1和Vs2被认为不包含相同物体的视图(方框195)。

如果Pearson检验统计数据c高于阈值TH(方框190的退出分支“是”(Y))，则意味着全局直方图g的形状足够不同于全局离群点概率质量函数p的形状以假定在M个图像对IP(m)之间存在足够大量的正确的兴趣点匹配(即，内群点)。在这种情况下，视频镜头Vs1和Vs2被认为包含相同物体的视图(方框197)。

如本领域技术人员众所周知的，在Pearson检验中要利用的阈值TH的值应基于可以容忍的假肯定(false positive)的数量而设定。

与已知的解决方案相比，所提出的方法更加鲁棒，因为它允许识别视频镜头的图像中所描绘的细节少和/或不佳的物体。事实上，即使在生成全局直方图期间，只有与这样的细节少和/或不佳的物体相对应的少量兴趣点被选择，与这样的很少的兴趣点相对应的分量也对于每个图像对被累积，使它们的整体贡献增大。评估两个视频镜头是否描绘相同物体或相同场景的能力随着兴趣点匹配的总数量而增大，使得当内群点的数量相对于匹配的兴趣点的总数量来说很少时，描绘相同物体或相同场景的视频镜头也被检测到。

图4示意性地示出前述方法可以被利用来实现根据本发明的实施例的视觉搜索服务的可能的场景。图4的场景(用附图标记400识别)是根据客户端-服务器配置构造的，其中视觉搜索服务410被配置为与多个终端420进行交互以用于通过外部网络430(诸如MAN、WAN、VPN、互联网或电话网络)交换数据。每个终端420可以是个人计算机、笔记本、膝上型计算机、个人数字助理、智能电话或能够管理数字视频镜头的任何电子设备。

根据图5A中所示的本发明的实施例，视觉搜索服务的所有主要操作都是由视觉搜索服务器410实施的。

终端420的请求与视频镜头中所描绘的物体相关的信息的用户通过网络430将所述视频镜头(查询视频镜头)发出到视觉搜索服务器410。

视觉搜索服务器410包括服务器接口502，服务器接口502适于与网络430进行交互以用于从终端420接收数据/将数据发送到终端420。通过服务器接口502，视觉搜索服务器410接收要被分析的查询视频镜头。

查询视频镜头被提供给兴趣点检测单元504，兴趣点检测单元504被配置为识别查询视频镜头的图像内的兴趣点。

视觉搜索服务器410进一步包括匹配单元508，匹配单元508与参考数据库510耦合，参考数据库510存储多个预先处理的参考视频镜头。对于每个参考视频镜头，并且对于包括所述参考视频镜头的图像和查询视频镜头的图像的每个图像对，在所述图像对的两个图像的兴趣点之间进行匹配。

视觉搜索服务器410进一步包括第一处理单元512，第一处理单元512被配置为：

-对于每个参考视频镜头并且对于涉及所述参考视频镜头的图像和查询视频镜头的图像的每个图像对，计算由匹配单元508生成的每个对应的兴趣点匹配的LDR，

-将每个图像对的LDR布置在对应的图像对直方图中，并且

-对于每个图像对计算对应的图像对离群点概率质量函数。

视觉搜索服务器410进一步包括第二处理单元514，第二处理单元514被配置为对于每个参考视频镜头生成：

-全局直方图(通过使用与所述参考视频镜头和所述查询视频镜头相对应的图像对直方图)，以及

-全局离群点概率质量函数(通过使用与所述参考视频镜头和所述查询视频镜头相对应的图像对离群点概率质量函数)。

视觉搜索服务器410进一步包括决策单元516，决策单元516被配置为评估是否存在包含查询视频镜头中所描绘的物体的视图的参考视频镜头。为了该目的，决策单元516被配置为对于每个参考视频镜头在对应的全局直方图和全局离群点概率质量函数之间进行比较。决策单元516被进一步配置为通过网络430将结果提供给终端420。

根据图5B中所示的本发明的进一步的实施例，兴趣点检测单元504被直接包括在终端420中，而不是被包括在视觉搜索服务器410中。在这种情况下，每个终端420能够直接发出从查询视频镜头的图像本地生成的兴趣点，而不是将查询视频镜头发出到视觉搜索服务器410。

前面的描述呈现并详细讨论了本发明的数个实施例；但是，在不违背由所附权利要求限定的范围的情况下，对所描述的实施例以及不同的发明实施例的数个改变是可能的。

例如，虽然在本描述中引用了对数距离比(LDR)，但是如果直方图是用没有对数的差值距离比(诸如平面(plain)距离比)解释(construe)的，则类似的考虑是适用的；而且，如果直方图是用对数距离比的倍数和/或幂解释的，则类似的考虑是适用的。

而且，即使直方图的区间的宽度彼此不同，本发明的概念也可以被应用。

Claims

1.一种用于将包括第一图像的第一集合的第一视频镜头与包括第二图像的第二集合的第二视频镜头进行比较的方法，第一集合和第二集合之间的至少一个包括至少两个图像，该方法包括：

-将第一集合的每个第一图像与第二集合的每个第二图像配对以形成多个图像对；

-对于每个图像对，实施操作a)-g)：

f)计算多个计算距离比的第一统计分布，第一统计分布是图像对直方图，计算第一统计分布包括根据图像对直方图的多个有序区间来在该图像对直方图中布置多个距离比，每个有序区间对应于距离比值的相应间隔，图像对直方图对于每个区间确定具有被包括在相应间隔内的值的计算距离比的对应数量；

g)计算在所述图像对中的所有兴趣点匹配都是离群点的假设下获得的距离比的第二统计分布，计算第二统计分布包括计算图像对离群点概率质量函数，所述图像对离群点概率质量函数对于所述区间中的每个包括：在所有兴趣点匹配都是离群点的假设下距离比具有落在所述区间内的值的概率；

-基于所有图像对的第一统计分布来生成对于所有图像对计算的多个计算距离比的第一全局统计分布，第一全局统计分布是全局直方图，生成第一全局统计分布包括基于图像对直方图来生成全局直方图，所述全局直方图指示对于所有图像对计算的距离比的值在区间之间是如何分布的；

-基于与所有图像对中兴趣点的随机选择对应的第二统计分布来生成在所有图像对中的所有兴趣点匹配都是离群点的假设下获得的距离比的第二全局统计分布，生成第二全局统计分布包括通过组合图像对离群点概率质量函数来生成全局离群点概率质量函数；

-通过估计第一全局统计分布和第二全局统计分布之间的形状上的差异，将所述第一全局统计分布与所述第二全局统计分布进行比较；并且

-基于所述比较来评估第一视频镜头是否包含第二视频镜头中所描绘的物体的视图，当所述第一全局统计分布和所述第二全局统计分布之间的形状上的差异超过预定阈值时，确定第一视频镜头包含第二视频镜头中所描绘的物体的视图。

2.根据权利要求1所述的方法，其中，基于图像对直方图生成全局直方图包括：

对于多个有序区间中的每个区间，对与所有图像对直方图的区间相对应的计算距离比的数量进行求和。

3.根据权利要求2所述的方法，其中，生成图像对离群点概率质量函数包括计算图像对离群点概率质量函数的线性组合。

4.根据权利要求1所述的方法，其中，将所述第一全局统计分布与所述第二全局统计分布进行所述比较包括执行Pearson检验。

5.根据权利要求1所述的方法，其中，所述计算距离比包括计算所述距离比的对数。

6.一种视频镜头比较系统，包括：

-通信接口，被配置为接收包括第一图像的第一集合的第一视频镜头并且识别第一图像中的第一兴趣点；

-参考数据库，存储多个第二视频镜头，每个第二视频镜头包括第二图像的相应的第二集合；

-电路系统，被配置为

对于每个第二视频镜头并且对于包括所述第二视频镜头的第二图像和第一视频镜头的第一图像的每个图像对，将所述第一图像中的第一兴趣点与所述第二图像中的第二兴趣点相关联以便形成对应的兴趣点匹配；

对于每个第二视频镜头并且对于包括所述第二视频镜头的第二图像和第一视频镜头的第一图像的每个图像对：

-计算多个距离比，每个距离比对应于选定的兴趣点匹配对，并且是基于第一项与第二项之比或者基于第二项与第一项之比，所述第一项对应于所述兴趣点匹配对的第一兴趣点之间的距离，所述第二项对应于所述兴趣点匹配对的第二兴趣点之间的距离；

-计算多个计算距离比的第一统计分布，所述第一统计分布是图像对直方图，所述电路系统被配置为通过根据图像对直方图的多个有序区间在该图像对直方图中布置多个距离比来计算第一统计分布，每个有序区间对应于距离比值的相应间隔，图像对直方图对于每个区间确定具有被包括在相应间隔内的值的计算距离比的对应数量；

-计算在所述图像对中的所有兴趣点匹配都是离群点的假设下获得的距离比的第二统计分布，所述第二统计分布是图像对离群点概率质量函数，所述电路系统被配置为通过生成图像对离群点概率质量函数来计算第二统计分布，所述图像对离群点概率质量函数对于所述区间中的每个包括：在所有兴趣点匹配都是离群点的假设下距离比具有落在所述区间内的值的概率；

对于每个第二视频镜头：

-基于包括所述第二视频镜头的第二图像的所有图像对的第一统计分布来生成对于包括所述第二视频镜头的第二图像的所有图像对计算的多个计算距离比的第一全局统计分布，所述第一全局统计分布是全局直方图，所述电路系统被配置为通过基于图像对直方图生成全局直方图来生成第一全局统计分布，所述全局直方图指示对于所有图像对计算的距离比的值在区间之间是如何分布的；

-基于与包括所述第二视频镜头的第二图像的所有图像对中兴趣点的随机选择对应的第二统计分布来生成在包括所述第二视频镜头的第二图像的所有图像对中的所有兴趣点匹配都是离群点的假设下获得的距离比的第二全局统计分布，所述第二全局统计分布是全局离群点概率质量函数，所述电路系统被配置为通过组合图像对离群点概率质量函数生成全局离群点概率质量函数来生成第二全局统计分布；

对于每个第二视频镜头，将对应的第一全局统计分布与对应的第二全局统计分布进行比较，并且基于所述比较来评估是否存在包含第一视频镜头中所描绘的物体的视图的第二视频镜头，

其中，对应的第一全局统计分布与对应的第二全局统计分布的比较包括估计所述对应的第一全局统计分布和所述对应的第二全局统计分布之间的形状上的差异，并且

当所述第一全局统计分布和所述第二全局统计分布之间的形状上的差异超过预定阈值时，确定第一视频镜头包含第二视频镜头中所描绘的物体的视图。

7.一种非暂时性计算机可读介质，包括存储在该非暂时性计算机可读介质上的指令，当在处理器上执行时该指令执行如权利要求1-5中任一项所述的方法。

8.一种设备，包括：

一个或多个处理器；以及

存储器，存储当由一个或多个处理器执行时使一个或多个处理器执行如权利要求1-5中任一项所述的方法的指令。

9.一种装置，包括用于执行如权利要求1-5中任一项所述的方法的部件。