CN102693299A

CN102693299A - 一种并行视频拷贝检测系统和方法

Info

Publication number: CN102693299A
Application number: CN2012101538934A
Authority: CN
Inventors: 廖开阳; 刘贵忠; 乔珍; 刘超腾; 肖莉
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2012-05-17
Filing date: 2012-05-17
Publication date: 2012-09-26
Anticipated expiration: 2032-05-17
Also published as: CN102693299B

Abstract

本发明公开了一种并行视频拷贝检测方法和系统，包括如下步骤:1.采用并行的方法对查询视频和参考视频选取关键帧，并对这些关键帧提取MIFT特征；2.采用并行的分级聚类方法对所提取的参考视频的特征数据进行聚类；3.根据聚类的结果采用并行量化方法对查询视频和参考视频的特征进行量化；4.对参考视频的量化数据建立索引；5.采用并行的方法检索，利用查询视频的量化数据在索引中初步查找得到备选视频，然后计算空间一致性和时间一致性最终确定拷贝的视频。本发明的系统在基于视觉词汇包模型（BOF）的快速检索基础上采用了并行机制，大大地提高了系统的检测效率。

Description

一种并行视频拷贝检测系统和方法

技术领域

本发明属于视频拷贝检测技术领域，涉及一种并行视频拷贝检测系统和方法。

背景技术

近年来，计算机技术和通信技术的快速发展极大地方便了数字视频信息的传输、存储和复制，使得视频信息的数量飞速增长。这对视频内容的管理和检索的方案是一个很大的挑战。此外，一个复制的视频可能不是对原始视频的精确拷贝而是一个对原始视频经过改造了的版本。视频拷贝检测的任务是在一个参考视频库中查找并确定查询视频被复制或修改的内容片段。视频拷贝检测技术在视觉信息处理中有着重要的用途，如发现多媒体内容的拷贝片段、通过样本视频检索相关的视频、商业电影或电视节目的监测等。

视频搜索特别是视频拷贝检测是一个非常活跃的研究领域。现有的文献中Josef Sivic and Andrew Zisserman,”Efficient Visual Search of Videos Cast asText Retrieval”,IEEE Trans.Pattern Analysis and Machine Intelligence,vol.31,no.4,pp.591-606,April 2009.、HervéJégou,Matthijs Douze,CordeliaSchmid,”Improving Bag-of-Features for Large Scale Image Search”,Int JComput Vis vol.87,pp.316-336,2010，对视频拷贝检测技术的研究做出了很大的贡献。但是这些方法在大型数据库上检索结果不够精确、运行效率不高，因此这些视频检索和视频拷贝检测技术没有得到广泛应用。尽管研究人员提出了多种视频拷贝检测方法，但由于视频格式和内容的多样性，如何快速有效地检测视频拷贝依然是一个未解决的问题。并行计算机提供了良好的运行环境，可以在大型数据库上高效地执行检索算法。最近，人们越来越关注并行检索算法。

发明内容

本发明解决的问题在于提供一种并行视频拷贝检测系统和方法，能够在海量的视频数据库中快速、精确的确定用户所关心视频是否是数据库中视频的拷贝的检索方法和系统。

本发明是通过以下技术方案来实现：

一种并行视频拷贝检测系统，包括离线子系统和在线子系统：

离线子系统的处理对象是参考视频库，对参考视频库中的视频进行关键帧提取、图像特征提取、特征矢量的聚类分析、特征矢量到视觉词汇的量化并生成视觉词汇表和关于特征的倒排索引表以供在线子系统的查询；

在线子系统完成对查询视频在参考视频库中的查询；在线子系统对查询视频进行关键帧提取、图像特征提取、根据参考视频库生成的视觉词汇表对在线系统当前视频的所有关键帧中的特征量化成视觉词汇，然后结合参考视频库的倒排索引表以及当前视频所有关键帧中的视觉词汇进行候选视频的查找和搜索，接下来检查几何一致性和时间一致性，对检索得出的匹配分数进行融合、规一化处理并得出最终检索结果。

所述的离线子系统包括特征提取模块和索引建立模块，征提取模块对参考视频库中的视频进行关键帧提取，并对关键帧进行图像特征提取，提取得到特征矢量；

索引建立模块对特征矢量进行特征矢量的聚类分析，并根据聚类结果对特征矢量到视觉词汇的量化，生成视觉词汇表和关于特征的倒排索引表。

所述的在线子系统包括特征提取模块、索引建立模块和检索模块；

征提取模块对查询视频进行关键帧提取，并对关键帧进行图像特征提取，提取得到特征矢量；

索引建立模块根据参考视频库生成的视觉词汇表对在线系统当前视频的所有关键帧中的特征量化成视觉词汇；

检索模块在将索引建立模块建立的基础上，结合参考视频库的倒排索引表以及当前视频所有关键帧中的视觉词汇进行候选视频的查找和搜索，接下来检查几何一致性和时间一致性，对检索得出的匹配分数进行融合、规一化处理并得出最终检索结果。

一种并行视频拷贝检测方法，包括以下步骤：

1）采用并行的方法，在线子系统和离线子系统分别对查询视频和参考视频选取关键帧，并对关键帧提取图像特征；

2）采用并行的分级聚类方法，离线子系统对所提取的参考视频的特征数据进行聚类；

3）离线子系统根据聚类的结果采用并行量化方法，对特征矢量到视觉词汇的量化，生成视觉词汇表和关于特征的倒排索引表；

在线子系统根据参考视频库生成的视觉词汇表采用并行量化方法，对在线系统当前视频的所有关键帧中的特征量化成视觉词汇；

4）在线子系统采用并行的方法检索，利用参考视频库的倒排索引表以及当前视频所有关键帧中的视觉词汇进行候选视频的查找和搜索，得到备选视频，然后计算空间一致性和时间一致性，对检索得出的匹配分数进行融合、规一化处理并得出最终检索结果。

所述对关键帧提取图形特征为：采用单程序多数据流的方法，把视频数据n分成p等份数据块，每个CPU在一个数据块上运行一个独立的程序进行关键帧选取、MIFT特征提取及MIFT特征描述，所生成的MIFT特征存放到指定的共享文件夹中。

所述聚类包括下列步骤：

在并行框架下对特征数据进行分级采样，并应用分级量化方法把下级采样数据量化到当前级的所有中心上：在分级比较的量化过程中根据SPMD并行原理，把需要量化的数据和计算机任务进行划分，使多个CPU并行执行量化程序，并且每一个CPU都在不同的数据上运行相同的分级比较量化代码；

在并行框架下应用K-均值聚类算法对当前级量化后的分组数据分别进行并行聚类：应用多线程并行对下级分组采用K-均值聚类，把需要聚类的分组数据和计算机任务进行划分，使多个CPU并行执行聚类程序，并且每一个CPU都在不同的分组数据上运行相同的聚类代码，所生成的类中心按顺序保存到共享内存中。

所述的步骤3）的并行量化方法是应用多线程并行的方法在多个CPU上同时运行相同的分级量化代码；

所述倒排索引表的生成为：

根据视觉词汇的量化的结果，对于量化结果中的的n个视觉词汇中的一个视觉词汇w_k，在m个视频帧d₁…d_m中的倒排索引表表示为：

w_k d₁[f₁]…d_m[f_m] （1）

其中f_m表示视觉词汇信息。

所述备选视频的检索是，利用查询视频的量化数据在索引中初步查找得到备选视频，把需要检索的数据和计算机任务进行划分，使多个CPU并行执行检索程序，并且每一个CPU都在不同的数据上运行相同的检索代码，然后计算空间一致性和时间一致性最终确定拷贝的视频，每个进程包括下列步骤：

基于词频/反词频加权的BOF投票检索：在计算查询帧图像与参考帧图像之间的相似性时应用BOF投票方法，并应用TF-IDF对所计算出的分值进行加权处理；

几何一致性检查：查询帧图像与参考帧图像在局部具有空间几何一致性的属性，应用这一属性对查询的帧图像结果进行筛选；

空间一致性检查：查询视频与参考视频在时间上具有一致性的属性，应用这一属性对查询的视频结果进行筛选。

所述的基于词频/反词频加权的BOF投票检索为：

首先对查询视频的特征进行量化，并计算每帧的TIF-IDF权值：

q:R^d→[1,k]

(2)

{tf}_{i} = f_{ij} / Σ_{t = 1}^{k} f_{tj} - - - (3)

{idf}_{i} = \log \frac{N}{n_{i}} - - - (4)

w_i=tf_i·idf_i (5)

其中，y_l,l＝1,...,m₁为给定的查询视频帧的第l个特征，x_i，j，i=1,...,m₂为参考视频库中第j帧中第i个特征，f_ij是第i个视觉词汇在第j个视频帧上出现的频率，n_i是包含第i个视觉词汇的参考视频帧的总数，N是总的参考视频数。q:表示量化，R^d表示实数空间中的d维数据，tf_i表示词频率因子、idf_i表示逆词频率因子。

然后计算相似性：

f_{tf - idf} (x_{i, j}, y_{l}) = (w_{q (y_{l})} \cdot w_{q (x_{i, j})}) δ_{q (x_{i, j}), q (y_{l})} - - - (6) .

所述的几何一致性的计算为：

gx = \frac{h - | x^{1} - x^{2} |}{h}

gy = \frac{w - | y^{1} - y^{2} |}{w}

(7)

gs = \frac{\log (\min (s^{1}, s^{2}))}{\log (\max (s^{1}, s^{2}))}

ga = \frac{2 π - | a^{1} - a^{2} |}{2 π}

g=(β₁gx+β₂gy+β₃ga+β₄gs)

(8)

β₁+β₂+β₃+β₄=1

f_{g} (x_{i, j}, y_{l}) = g \cdot f_{tf - idf} (x_{i, j}, y_{l}) = g \cdot (w_{q (y_{l})} \cdot w_{q (x_{i, j})}) δ_{q (x_{i, j}), q (y_{l})} - - - (9)

其中，h为帧图像的高，w为帧图像的宽，（x¹,y¹）、(x²,y²)分别是参考视频帧和查询视频帧中特征的坐标，s¹、s²分别是参考视频帧和查询视频帧中特征的尺度，a¹、a²分别是参考视频帧和查询视频帧中特征的方向；β₁-β₄是0至1之间的一个实数，并且β₁+β₂+β₃+β₄=1，gx为x轴上的偏移影响因子，gy为y轴上的偏移影响因子，gs为尺度偏移影响因子，gs为方向偏移影响因子，f_g表示用式（8）加权后的相似性。

规一化的计算为：

s_{j} = Σ_{l = 1}^{m_{1}} Σ_{i = 1}^{m_{2}} f_{g} (x_{i, j}, y_{l}) - - - (10)

{s_{j}}^{*} = s_{j} / \sqrt{Σ_{l = 1}^{m_{1}} {w_{q (y_{l})}}^{2} Σ_{i = 1}^{m_{2}} {w_{q (x_{i, j})}}^{2}} - - - (11)

其中，s_j为匹配分数，s_j ^*为规一化后的匹配分数。

空间一致性：对每个候选匹配视频都计算匹配帧的时间差的统计直方图，选择直方图最大的视频作为最佳视频。

与现有技术相比，本发明具有以下有益的技术效果：

对视频特征提取、索引建立及视频检索三大模块实行并行计算，极大地提高了系统的运行效率；

采用并行聚类方法使本发明的系统能够有效地对大型数据集进行快速聚类，可使本系统能够用在更大的视频数据库中；

采用基于TF-IDF加权的BOF投票检索方法、几何一致性检查和空间一致性检查这三项技术很好地提高了拷贝检测的精确度。

本发明的视频拷贝检测系统检索结果精确、运行速度快，可以在大型视频数据库中快速、精确地确定用户所关心视频是否是数据库中视频的拷贝。

附图说明

图1为本发明的系统框架图；

图2为本发明的并行特征提取模块示例图；

图3为本发明的并行量化流程示例图；

图4为本发明的并行聚类流程示例图；

图5为本发明的时间一致性检查示例图；

图6为本发明的并行检索模块示例图；

图7为本发明的实验结果。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

如图1所示的并行视频拷贝检测的系统框架图，并行视频拷贝检测系统分为两个子系统：离线子系统及在线子系统。离线子系统的处理对象是目标视频库，产生在线子系统查询时所需要的倒排索引表，在线子系统主要是完成对查询视频在目标视频库中的查询过程。

离线子系统的处理对象是参考视频库，对参考视频库中的视频进行关键帧提取、图像特征提取、特征矢量的聚类分析、特征矢量到视觉词汇的量化并生成视觉词汇表和关于特征的倒排索引表以供在线子系统的查询。

在图1所示的系统框架图中，下侧虚线框中的模块为离线子系统的各部分模块，上侧虚线框中的模块为在线子系统各部分模块。

按照功能划分，系统可以划分为三个功能模块，即特征提取模块、索引建立模块和检索模块。

离线子系统包括特征提取模块和索引建立模块，征提取模块对参考视频库中的视频进行关键帧提取，并对关键帧进行图像特征提取，提取得到特征矢量；

在线子系统包括特征提取模块、索引建立模块和检索模块；

基于上述系统的并行视频拷贝检测方法，包括以下步骤：

从功能执行上讲，首先执行特征提取模块，包括关键帧提取、图像特征提取模块。采用并行的方法对查询视频和参考视频选取关键帧，并对这些关键帧提取图形特征，具体是提取关键帧的MIFT特征（该特征是一种图形特征的提取方法）。

具体的MIFT特征的提取采用单程序多数据流（SPMD）的方法，把视频数据n分成p等份数据块，每个CPU在一个数据块上运行一个独立的程序进行关键帧选取、MIFT特征提取及MIFT特征描述，其方法如图2所示。

接下来执行索引建立模块，包括特征矢量的聚类分析、特征矢量到视觉词汇的量化以及生成倒排索引表。

采用并行的分级聚类方法对所提取的参考视频的特征数据进行聚类，包括下列三个步骤：

1）在SPMD并行框架下对原始特征数据进行分级采样，采样级数由用户的需求决定，采样数据的数据量逐级增加，最后一级数据大小要满足两个条件：一是要大于原始数据的5%,二是要大于总聚类中心数的30倍；

2）在并行框架下应用分级量化方法把下级采样数据量化到当前级的所有中心上。在分级比较的量化过程中根据SPMD并行原理，把需要量化的数据和计算机任务进行划分，使多个CPU并行执行量化程序，并且每一个CPU都在不同的数据上运行相同的分级比较量化代码，其运行如图3所示。

3）在并行框架下应用K-均值聚类算法对当前级量化后的分组数据分别进行并行聚类。应用多线程并行对下级分组采用K-均值聚类。根据SPMD并行原理，把需要聚类的分组数据和计算机任务进行划分，使多个CPU并行执行聚类程序，所生成的类中心按顺序保存到共享内存中，并且每一个CPU都在不同的分组数据上运行相同的聚类代码，其运行如图4所示。

根据聚类的结果采用并行量化方法对所有查询视频和参考视频的特征进行量化，应用多线程并行的方法在多个CPU上同时运行相同的分级量化代码，生成量化表文件。

根据前一步骤的量化结果（词汇表），对于量化表文件中的n个视觉词汇（特征）w₁…w_n中的一个w_k，在m个视频帧d₁…d_m中的倒排表可以表示为：

w_k d₁[f₁]…d_m[f_m] （1）

这样n条记录就构成一个完整的倒排表，其中f_m表示视觉词汇信息，比如频率、方向、尺度等。一个倒排表实际上就是一个词汇到出现过该词汇的所有视频帧位置的映射。

最后执行检索模块，采用并行的方法检索。在计算查询帧图像与参考帧图像之间的相似性时应用BOF投票方法（Josef Sivic and Andrew Zisserman,”Efficient Visual Search of Videos Cast as Text Retrieval”,IEEE Trans.PatternAnalysis and Machine Intelligence,vol.31,no.4,pp.591-606,April 2009），并采用TF-IDF（R.Baeza-Yates and B.Ribeiro-Neto.“Modern Information Retrieval”.ACM Press,ISBN:020139829,1999）对所计算出的分值进行加权处理。利用查询视频的量化数据在索引中初步查找得到备选视频，然后计算空间一致性和时间一致性最终确定拷贝的视频。

具体包括下列步骤：

首先对查询视频的特征进行量化，并计算每帧的TIF-IDF权值：

q:R^d→[1,k]

(2)

{tf}_{i} = f_{ij} / Σ_{t = 1}^{k} f_{tj} - - - (3)

{idf}_{i} = \log \frac{N}{n_{i}} - - - (4)

w_i=tf_i·idf_i (5)

其中，y_l,l＝1,...,m₁为给定的查询视频帧的第l个特征，x_i，j，i＝1,...,m₂为参考视频库中第j帧中第i个特征，f_ij是第i个视觉词汇在第j个视频帧上出现的频率，n_i是包含第i个视觉词汇的参考视频帧的总数，N是总的参考视频数。q:表示量化，R^d表示实数空间中的d维数据，tf_i表示词频率因子、idf_i表示逆词频率因子。

然后计算相似性：

f_{tf - idf} (x_{i, j}, y_{l}) = (w_{q (y_{l})} \cdot w_{q (x_{i, j})}) δ_{q (x_{i, j}), q (y_{l})} - - - (6)

其中q:表示量化，δ表示如果q(x_i,j),q(y_l)相等则为1，否则为0。

接下来计算几何一致性，几何一致性检查是指查询帧图像与参考帧图像在局部具有空间几何一致性的属性，应用这一属性可以对查询的帧图像结果进行筛选。计算方法如下：

gx = \frac{h - | x^{1} - x^{2} |}{h}

gy = \frac{w - | y^{1} - y^{2} |}{w}

(7)

gs = \frac{\log (\min (s^{1}, s^{2}))}{\log (\max (s^{1}, s^{2}))}

ga = \frac{2 π - | a^{1} - a^{2} |}{2 π}

g=(β₁gx+β₂gy+β₃ga+β₄gs)

(8)

β₁+β₂+β₃+β₄=1

f_{g} (x_{i, j}, y_{l}) = g \cdot f_{tf - idf} (x_{i, j}, y_{l}) = g \cdot (w_{q (y_{l})} \cdot w_{q (x_{i, j})}) δ_{q (x_{i, j}), q (y_{l})} - - - (9)

其中，h为帧图像的高，w为帧图像的宽，（x¹,y¹）、(x²,y²)分别是参考视频帧和查询视频帧中特征的坐标，s¹、s²分别是参考视频帧和查询视频帧中特征的尺度，a¹、a²分别是参考视频帧和查询视频帧中特征的方向，β₁-β₄是0至1之间的一个实数，并且β₁+β₂+β₃+β₄=1，gx为x轴上的偏移影响因子，gy为y轴上的偏移影响因子，gs为尺度偏移影响因子，gs为方向偏移影响因子，f_g表示用式（8）加权后的相似性。

接下来计算匹配分值，并对其规一化：

s_{j} = Σ_{l = 1}^{m_{1}} Σ_{i = 1}^{m_{2}} f_{g} (x_{i, j}, y_{l}) - - - (10)

{s_{j}}^{*} = s_{j} / \sqrt{Σ_{l = 1}^{m_{1}} {w_{q (y_{l})}}^{2} Σ_{i = 1}^{m_{2}} {w_{q (x_{i, j})}}^{2}} - - - (11)

其中，s_j为匹配分数，s_j ^*为规一化后的匹配分数。

然后执行空间一致性检查。空间一致性检查是指，查询视频与参考视频如果有拷贝关系，则对应的帧在时间上应该具有一致性，应用这一属性可以对查询的视频结果进行筛选。

其方法如图5所示，对每个候选匹配视频计算匹配帧之间的时间差，也就是用参考视频帧的帧号减去查询帧帧号。其基本原理是真正匹配上的两个视频之间的时间差是变化不大的。

对每个候选匹配视频都计算匹配帧的时间差的统计直方图，一般选择直方图最大的视频作为最佳视频。

最后对检索得出的匹配分数进行融合、规一化处理并得出最终检索结果。如果检索到，这个查询视频就是一个被拷贝过的视频，则返回发生拷贝帧的起始和结束时间。如果没有检索到则这个查询视频是一个原版的视频。

以上检索步骤可以并行执行，根据SPMD并行原理，把须要检索的数据和计算机任务进行划分，使多个CPU并行执行检索程序，并且每一个CPU都在不同的数据上运行相同的检索代码，其方法如图6所示。

具体的在曙光天阔服务器上对TRECVID的视频拷贝检测数据库进行了测试。实验中在TRECVID数据库中选取H个小时的视频组成实验数据库S_H，总共建成S₅₀、S₁₀₀、S₂₀₀和S₄₀₀四个实验数据库。每个实验数据库的具体配置的情况如表1所示。

表1.四个实验库的具体情况。

数据库	关键帧数	特征数	特征大小
				S50	42 118	16 847 500	5.6G
S100	105 530	38 212 342	11.8G

S200	341 762	116 251 837	36.8G
				S400	672 114	268 845 792	89.4G

检测的性能指标如下：

Recall = \frac{number of true positives}{total number of true} - - - (12)

precision = \frac{number of true positives}{total number of positives} - - - (13)

在以上四个数据库中对并行拷贝检测系统进行了实验，在同样参数配置的情况下所得出的性能对比如图7所示。在S50、S100、S200和S400四个数据库中，虽然它们的特征大小变化很大，从5.6G到89.4G，但它们的PR曲线图变化并不大，相差不到0.1,这显示出本系统具有良好的可扩展性，能够在很大的数据库中检索。本发明拷贝检测系统在1.2万个目标视频中检测8千个查询视频，平均一个查询视频的检测时间为6秒。

Claims

1.一种并行视频拷贝检测系统，其特征在于，包括离线子系统和在线子系统：

2.如权利要求1所述的并行视频拷贝检测系统，其特征在于，所述的离线子系统包括特征提取模块和索引建立模块，征提取模块对参考视频库中的视频进行关键帧提取，并对关键帧进行图像特征提取，提取得到特征矢量；

3.如权利要求1所述的并行视频拷贝检测系统，其特征在于，所述的在线子系统包括特征提取模块、索引建立模块和检索模块；

4.一种并行视频拷贝检测方法，其特征在于，包括以下步骤：

5.如权利要求4所述的并行视频拷贝检测方法，其特征在于，所述对关键帧提取图形特征为：采用单程序多数据流的方法，把视频数据n分成p等份数据块，每个CPU在一个数据块上运行一个独立的程序进行关键帧选取、MIFT特征提取及MIFT特征描述，所生成的MIFT特征存放到指定的共享文件夹中。

6.如权利要求4所述的并行视频拷贝检测方法，其特征在于，所述聚类包括下列步骤：

7.如权利要求4所述的并行视频拷贝检测方法，其特征在于，所述的步骤3）的并行量化方法是应用多线程并行的方法在多个CPU上同时运行相同的分级量化代码；

所述倒排索引表的生成为：

w_k d₁[f₁]…d_m[f_m] （1）

其中f_m表示视觉词汇信息。

8.如权利要求4所述的并行视频拷贝检测方法，其特征在于，所述备选视频的检索是，利用查询视频的量化数据在索引中初步查找得到备选视频，把需要检索的数据和计算机任务进行划分，使多个CPU并行执行检索程序，并且每一个CPU都在不同的数据上运行相同的检索代码，然后计算空间一致性和时间一致性最终确定拷贝的视频，每个进程包括下列步骤：

9.如权利要求8所述的并行视频拷贝检测方法，其特征在于，所述的基于词频/反词频加权的BOF投票检索为：

首先对查询视频的特征进行量化，并计算每帧的TIF-IDF权值：

q:R^d→[1,k]

(2)

{tf}_{i} = f_{ij} / Σ_{t = 1}^{k} f_{tj} - - - (3)

{idf}_{i} = \log \frac{N}{n_{i}} - - - (4)

w_i=tf_i·idf_i (5)

其中，y_l,l＝1,...,m₁为给定的查询视频帧的第l个特征，x_i，j，i＝1,...,m₂为参考视频库中第j帧中第i个特征，f_ij是第i个视觉词汇在第j个视频帧上出现的频率，n_i是包含第i个视觉词汇的参考视频帧的总数，N是总的参考视频数，q:表示量化，R^d表示实数空间中的d维数据，tf_i表示词频率因子、idf_i表示逆词频率因子；

然后计算相似性：

f_{tf - idf} (x_{i, j}, y_{l}) = (w_{q (y_{l})} \cdot w_{q (x_{i, j})}) δ_{q (x_{i, j}), q (y_{l})} - - - (6) .

10.如权利要求8所述的并行视频拷贝检测方法，其特征在于，

所述的几何一致性的计算为：

gx = \frac{h - | x^{1} - x^{2} |}{h}

gy = \frac{w - | y^{1} - y^{2} |}{w}

(7)

gs = \frac{\log (\min (s^{1}, s^{2}))}{\log (\max (s^{1}, s^{2}))}

ga = \frac{2 π - | a^{1} - a^{2} |}{2 π}

g=(β₁gx+β₂gy+β₃ga+β₄gs)

(8)

β₁+β₂+β₃+β₄=1

f_{g} (x_{i, j}, y_{l}) = g \cdot f_{tf - idf} (x_{i, j}, y_{l}) = g \cdot (w_{q (y_{l})} \cdot w_{q (x_{i, j})}) δ_{q (x_{i, j}), q (y_{l})} - - - (9)

其中，h为帧图像的高，w为帧图像的宽，（x¹,y¹）、(x²,y²)分别是参考视频帧和查询视频帧中特征的坐标，s¹、s²分别是参考视频帧和查询视频帧中特征的尺度，a¹、a²分别是参考视频帧和查询视频帧中特征的方向；β₁-β₄是0至1之间的一个实数，并且β₁+β₂+β₃+β₄=1，gx为x轴上的偏移影响因子，gy为y轴上的偏移影响因子，gs为尺度偏移影响因子，gs为方向偏移影响因子，f_g表示用式（8）加权后的相似性；

规一化的计算为：

s_{j} = Σ_{l = 1}^{m_{1}} Σ_{i = 1}^{m_{2}} f_{g} (x_{i, j}, y_{l}) - - - (10)

{s_{j}}^{*} = s_{j} / \sqrt{Σ_{l = 1}^{m_{1}} {w_{q (y_{l})}}^{2} Σ_{i = 1}^{m_{2}} {w_{q (x_{i, j})}}^{2}} - - - (11)

其中，s_j为匹配分数，s_j*为规一化后的匹配分数；