CN105224619A

CN105224619A - 一种适用于视频/图像局部特征的空间关系匹配方法及系统

Info

Publication number: CN105224619A
Application number: CN201510599948.8A
Authority: CN
Inventors: 张冬明; 靳国庆; 袁庆升; 张勇东; 包秀国
Original assignee: Institute of Computing Technology of CAS
Current assignee: Zhongke Xingyun Hebi Artificial Intelligence Research Institute Co ltd
Priority date: 2015-09-18
Filing date: 2015-09-18
Publication date: 2016-01-06
Anticipated expiration: 2035-09-18
Also published as: CN105224619B

Abstract

本发明提出一种适用于视频/图像局部特征的空间关系匹配方法及系统，该方法包括获取所有所述视频/图像特征点的尺度信息，确定每个所述视频/图像特征点的局部邻域空间，获取所述局部邻域空间内所有所述视频/图像特征点的视觉关键词编码，对所述视觉关键词编码进行量化处理，生成新视觉关键词编码，对所述新视觉关键词编码进行排序，生成所述视频/图像特征点的空间关系编码；比较待匹配视频/图像特征点与所述视频/图像特征点的空间关系编码，构建关系矩阵，计算所述关系矩阵中所述待匹配视频/图像特征点与所述视频/图像特征点空间关系编码相似度，融合所述待匹配视频/图像特征点与所述视频/图像特征点的视觉相似度及空间关系编码相似度。

Description

一种适用于视频/图像局部特征的空间关系匹配方法及系统

技术领域

本发明涉及基于内容的图像视频检索技术，特别涉及一种适用于视频/图像局部特征的空间关系匹配方法及系统。

背景技术

互联网图像和视频等视觉信息的迅速增长，给信息的组织与管理带来了巨大挑战，相似图像视频检测是实施视频图像内容管理、检索的重要技术手段。以尺度不变特征变换(SIFT，Scale-InvariantFeatureTransform)为代表的局部特征为相似视频图像内容检测提供了一种鲁棒的特征表达方法，它可以提取出对亮度、模糊、视角、旋转等具有不变性的特征，已经成为视频图像内容检索应用中一项极其重要的技术。

然而，为了确保局部特征对于各类变换的鲁棒性，其区分能力降低较为严重，其突出表现为：1)仅将一个小的邻域空间内方向梯度直方图(HOG，HistogramofOrientedGradient)作为中心点的特征描述子(参考文献Lowe,DavidG.Objectrecognitionfromlocalscale-invariantfeatures.ProceedingsoftheInternationalConferenceonComputerVision2.pp.1150–1157,1999)，对于视频图像中的文字、草地等具有局部相似纹理分布的对象，其描述子无法区分；2)为应对旋转变换而加入的主方向提取，导致特征不具有方向识别不能，比如不能区分“6”和“9”。而为了提高检索速度，通过词袋(BoW，BagofWords)技术(参考文献Sivic,Josef.Efficientvisualsearchofvideoscastastextretrieval.IEEETRANSACTIONSONPATTERNANALYSISANDMACHINEINTELLIGENCE,31(4),pp.591–605,2009)，将SIFT描述子量化为多个视觉单词，则进一步降低了SIFT的区分能力。

通常有两类手段改进SIFT特征，一是对SIFT局部特征点的空间关系进行校验，去除空间关系不符合仿射变换的匹配点，典型方法如随机采样一致(RANSAC，RANdomSAmpleConsensus)(具体参见文献M.A.FischlerandR.C.Bolles.Randomsampleconsensus:aparadigmformodelfittingwithapplicationstoimageanalysisandautomatedcartography.CommunicationsoftheACM,24(6):381–395,1981)，缺点是计算复杂度高；二是将SIFT特征映射到低维空间中二次划分，提高词袋中视觉单词的区分能力，典型方法为海明嵌入(HE，HammingEmbedding)(具体参见文献H.J′egou,M.Douze,andC.Schmid.Hammingembeddingandweakgeometricconsistencyforlargescaleimagesearch.ECCV.2008)，缺点是数据依赖性较高。

发明内容

针对现有技术的不足，本发明提出一种适用于视频/图像局部特征的空间关系匹配方法及系统。

本发明提出一种适用于视频/图像局部特征的空间关系匹配方法，包括：

步骤1，获取所述视频/图像的所有视频/图像特征点与所述视频/图像特征点的属性信息，根据所述视频/图像特征点与所述属性信息，获取所有所述视频/图像特征点的尺度信息，通过所述尺度信息，确定每个所述视频/图像特征点的局部邻域空间，获取所述局部邻域空间内所有所述视频/图像特征点的视觉关键词编码，对所述视觉关键词编码进行量化处理，生成新视觉关键词编码，对所述新视觉关键词编码进行排序，生成所述视频/图像特征点的空间关系编码；

步骤2，比较待匹配视频/图像特征点与所述视频/图像特征点的空间关系编码，构建关系矩阵，计算所述关系矩阵中所述待匹配视频/图像特征点与所述视频/图像特征点空间关系编码相似度，融合所述待匹配视频/图像特征点与所述视频/图像特征点的视觉相似度及空间关系编码相似度，以完成空间关系匹配。

所述的适用于视频/图像局部特征的空间关系匹配方法，所述步骤1包括计算视频图像特征点之间的位置距离，公式为：

P D (i, j) = \sqrt[2]{{(x (i) - x (j))}^{2} + {(y (i) - y (j))}^{2}}

其中PD(i,j)为位置距离，i、j为视频/图像特征点，x(·),y(·)分别为视频/图像特征点在视频/图像中水平和垂直方向的位置坐标；

计算邻域空间因子s，公式为：

s = \sqrt[2]{σ \cdot 6}

其中σ为所述尺度信息。

所述的适用于视频/图像局部特征的空间关系匹配方法，还包括所述邻域空间是以所述视频/图像特征点为中心，半径为α·s的圆，其中1≤α≤2，α为缩放系数。

所述的适用于视频/图像局部特征的空间关系匹配方法，所述步骤2包括：

步骤201，所述关系矩阵中，若待匹配视频/图像特征点与所述视频/图像特征点的视觉关键词相同，则矩阵元素设置为z，否则设置为h；

步骤202，从左向右，从上而下，在符合距离顺序关系前提下，扫描关系矩阵中的元素，构建由元素z构成的阶梯，阶梯数称为同序长度，所述同序长度最大的阶梯数为最长同序长度；

步骤203.计算最长同序长度与有效编码长度的比值作为所述待匹配视频/图像特征点与所述视频图像特征点的空间关系编码的相似度。

所述的适用于视频/图像局部特征的空间关系匹配方法，通过如下公式融合特征点视觉相似度及空间关系编码相似度：

Sim＝(λ·sim_v+sim_s)·w

其中Sim最终相似度，sim_v为所述待匹配视频/图像特征点基于特征描述子的视觉相似度，sim_s为所述待匹配视频/图像特征点基于特征描述子的空间关系编码相似度，w为所述待匹配视频/图像特征点在整个视频图像匹配中的权重，λ为特征描述子距离相对于空间关系距离的重要程度。

本发明还提出一种适用于视频/图像局部特征的空间关系匹配系统，包括：

生成空间关系编码模块，用于获取所述视频/图像的所有视频/图像特征点与所述视频/图像特征点的属性信息，根据所述视频/图像特征点与所述属性信息，获取所有所述视频/图像特征点的尺度信息，通过所述尺度信息，确定每个所述视频/图像特征点的局部邻域空间，获取所述局部邻域空间内所有所述视频/图像特征点的视觉关键词编码，对所述视觉关键词编码进行量化处理，生成新视觉关键词编码，对所述新视觉关键词编码进行排序，生成所述视频/图像特征点的空间关系编码；

空间关系匹配模块，用于比较待匹配视频/图像特征点与所述视频/图像特征点的空间关系编码，构建关系矩阵，计算所述关系矩阵中所述待匹配视频/图像特征点与所述视频/图像特征点空间关系编码相似度，融合所述待匹配视频/图像特征点与所述视频/图像特征点的视觉相似度及空间关系编码相似度，以完成空间关系匹配。

所述的适用于视频/图像局部特征的空间关系匹配系统，所述生成空间关系编码模块包括计算视频图像特征点之间的位置距离，公式为：

P D (i, j) = \sqrt[2]{{(x (i) - x (j))}^{2} + {(y (i) - y (j))}^{2}}

计算邻域空间因子s，公式为：

s = \sqrt[2]{σ \cdot 6}

其中σ为所述尺度信息。

所述的适用于视频/图像局部特征的空间关系匹配系统，还包括所述邻域空间是以所述视频/图像特征点为中心，半径为α·s的圆，其中1≤α≤2，α为缩放系数。

所述的适用于视频/图像局部特征的空间关系匹配系统，所述空间关系匹配模块包括：

所述关系矩阵中，若待匹配视频/图像特征点与所述视频/图像特征点的视觉关键词相同，则矩阵元素设置为z，否则设置为h；

从左向右，从上而下，在符合距离顺序关系前提下，扫描关系矩阵中的元素，构建由元素z构成的阶梯，阶梯数称为同序长度，所述同序长度最大的阶梯数为最长同序长度；

计算最长同序长度与有效编码长度的比值作为所述待匹配视频/图像特征点与所述视频图像特征点的空间关系编码的相似度。

所述的适用于视频/图像局部特征的空间关系匹配系统，通过如下公式融合特征点视觉相似度及空间关系编码相似度：

Sim＝(λ·sim_v+sim_s)·w

其中Sim最终相似度，sim_v为所述待匹配视频/图像特征点基于特征描述子的视觉相似度，sim_s为所述待匹配视频/图像特征点基于特征描述子的空间关系编码相似度，w为所述待匹配视频/图像特征点在整个视频图像匹配中的权重，λ为特征描述子距离相对于空间关系距离的重要程度。由以上方案可知，本发明的优点在于：

本发明具有旋转不变性、尺度不变性，对于因噪声、模糊、等导致的特征点丢失、乱序所产生的空间关系编码变换具有鲁棒性，在holidays数据集上，图像检索精度mAP可以提高5个百分点。

附图说明

图1为特征点空间关系编码示例；

图2为空间关系编码的距离计算示例；

图3为本发明方法整体流程图；

图4为步骤2的具体步骤流程图；

图5为本发明系统结构图。

其中附图标记为：

步骤1/2；

步骤201/202/203。

具体实施方式

为解决以上技术问题，本发明提出了一种适用于视频/图像局部特征的空间关系匹配方法，包含以下实施步骤：

所述步骤1包括计算视频图像特征点之间的位置距离，公式为：

P D (i, j) = \sqrt[2]{{(x (i) - x (j))}^{2} + {(y (i) - y (j))}^{2}}

计算邻域空间因子s，公式为：

s = \sqrt[2]{σ \cdot 6}

其中σ为所述尺度信息。

还包括所述邻域空间是以所述视频/图像特征点为中心，半径为α·s的圆，其中1≤α≤2，α为缩放系数。

所述步骤2包括：

通过如下公式融合特征点视觉相似度及空间关系编码相似度：

Sim＝(λ·sim_v+sim_s)·w

其中sim_v为所述待匹配视频/图像特征点基于特征描述子的视觉相似度，sim_s为所述待匹配视频/图像特征点基于特征描述子的空间关系编码相似度，w为所述待匹配视频/图像特征点在整个视频图像匹配中的权重，λ为特征描述子距离相对于空间关系距离的重要程度，v为视觉性英文单词visual的首字母，s为空间关系spatial英文单词的首字母。

所述生成空间关系编码模块包括计算视频图像特征点之间的位置距离，公式为：

P D (i, j) = \sqrt[2]{{(x (i) - x (j))}^{2} + {(y (i) - y (j))}^{2}}

计算邻域空间因子s，公式为：

s = \sqrt[2]{σ \cdot 6}

其中σ为所述尺度信息。

所述空间关系匹配模块包括：

Sim＝(λ·sim_v+sim_s)·w

以下为本发明实施例，如下所示：

步骤10，对视频图像中所有局部特征点构建空间关系编码；

步骤11，在视频图像检索过程中，融入空间关系编码的匹配。

其中所述步骤101的具体步骤如下所示：

所述步骤101中，对视频图像中所有局部特征点构建空间关系编码，需要确定两个参数。一是每个特征点的邻域空间的范围R；二是空间关系编码的维度D。范围R的设置应具有尺度不变性，其设置过大，不仅降低了空间编码的鲁棒性，还会导致空间编码复杂度过高，而设置过小，则不能很好地表现特征点的空间关系，类似地，维度D的取值也需要结合实际应用予以考虑，且其取值与范围R存在关联关系，可选择范围为[8,64]，具体地，按照下述步骤建立视频图像中所有局部特征点的空间关系编码：

步骤101，计算邻域内所有特征点所在位置之间的相互距离。为了避免反复计算，可按照如下方式预先计算所有特征点之间的距离，记为PD(i,j)(0≤i<N,0≤j<N,i≠j)，其中，N为视频图像中特征点个数,PD(i,j)为点i和j之间的欧式距离，按下式计算，其中x(·),y(·)分别为点在图像中水平和垂直方向的位置坐标，可以发现PD为对称矩阵

P D (i, j) = \sqrt[2]{{(x (i) - x (j))}^{2} + {(y (i) - y (j))}^{2}}

步骤102，对于每个特征点，以SIFT为例(其他具有尺度不变性特点的特征类似)，从其属性信息中获取其尺度信息σ，按照标准SIFT特征提取过程，应按下式计算邻域空间因子s

s = \sqrt[2]{σ \cdot 6}

依据s确定当前特征点(记为c)的局部邻域空间，该邻域空间R是以当前特征点为中心，半径为α·s的圆，其中1≤α≤2，为缩放系数，目的在于确保邻域空间内总的特征点数尽可能超过空间关系编码维度D。比较邻域特征点与当前特征点c之间的距离PD(c,j)(0≤j<N,j≠N)(或者PD(i,c)(0≤i<N,i≠c)与α·s大小关系，如果PDc,j≤α·s，记录其与中心的距离PDc,j，邻域空间内特征点个数记为m，其中所述确定邻域空间范围，α·s只是所列的一种，本发明包含所有基于s的邻域定义方式；

步骤103，获取邻域内所有特征点的视觉关键词编码。为提高空间关系编码对局部变化的鲁棒性，需要对该关键词编码进行处理，以生成适合空间关系编码的新关键词编码。新关键词编码使用比特征点匹配中更小的视觉词典，其简单的构建方法是对原有关键词直接量化，量化参数可在[5,100]之间选择，典型地，可使用10作为量化参数，记录新视觉关键词编码bow(j)(0≤j<N,j≠N)，这样与步骤中获得的距离PD(c,j)一起形成二元组信息<PD(c,j),bow(j)>，记录到表NH中，其中所述新编码生成方式，直接对原编码进行量化生成新的视觉关键词编码仅是所列一种，本发明还包括使用新的小词典进行编码的生成方式；

步骤104，对表NH中记录按照距离PD(c,·)从小到大排序，获得对应的bow(·)序列bs，若m≥D,则取bs中的前D项，作为当前点的空间关系；否则将所有m项bs序列叠加一个D-m个“-1”组成的序列，作为当前点的空间关系编码。

步骤105，对视频图像中所有特征点重复步骤102～104，建立所有点的空间关系编码。

所述步骤11中，在视频图像检索过程中，融入待匹配特征点与候选特征点的空间关系的距离的步骤如下：

步骤111，采用步骤10中步骤101～步骤105相同步骤，获得待匹配特征点的空间关系编码，记为mbs(i)(0≤i<D)；

步骤112，记录D_mbs为mbs(·)中不等于-1的元素个数，D_dbs为dbs(·)中不等于-1的元素个数，二者中较小值记录为validlen，称为有效编码长度；

步骤113，构建空间关系矩阵dr(·,·)。依次比较mbs(i)(0≤i<D_mbs)与dbs(j)(0≤j<D_dbs)中的元素，如果视觉关键词mbs(i)与dbs(j)相等，则将关系矩阵元素dr(i,j)(0≤i<D_mbs,0≤j<D_dbs)记为1，否则记为0；

步骤114，从上而下，从左向右，在符合距离顺序关系(下行“1”出现的水平位置在上一行“1”出现位置的右侧)前提下，扫描关系矩阵中的元素，构建由元素“1”构成的阶梯，称为同序阶梯，阶梯数称为同序长度，参看图2；

步骤115，选择阶梯数最大的阶梯，其阶梯数称为最长同序长度，记为maxlen(注意：上一步骤中每行仅需选择最左边的“1”开始扫描，由其他“1”开始扫描生成的同序阶梯长度不可能为最大同序长度)；

步骤116，计算sim_s＝maxlen/validlen，作为待匹配点与候选特征点的空间关系编码相似度的相似程度

步骤117，按照下述公式融合特征点视觉相似度及空间关系编码相似度，获得两个特征点的最终相似程度:

Sim＝(λ·sim_v+sim_s)·w

其中，sim_v为所述待匹配视频/图像特征点基于特征描述子的视觉相似度，sim_s为所述待匹配视频/图像特征点基于特征描述子的空间关系编码相似度，w为该特征点在整个视频图像匹配中的权重，λ(0.01≤λ≤0.99)为描述子距离相对于空间关系距离的重要程度，可根据实际应用予以调整，通常设置为0.1。

以下为本发明的实施例，如下所示：

图1特征点空间关系编码示例1)设当前特征点为O，获取其尺度因子σ，从而确定其以O为中心，半径为·的邻域空间；2)获取周围特征点与其距离，并获取其邻域空间内特征点对应的视觉关键词；3).按照特征点距离对视觉关键词排序，获得点O的空间关系编码为“BEDCA-1-1-1-1-1-1-1-1-1-1-1”(假设编码维度为16)。(为便于区分，关键词编码使用字母表示，实际上是32位整数，下同。)

图2空间关系编码的距离计算示例1)生成序列“BABCDBEF-1-1-1-1-1-1-1-1”与“ABACBCCDFECDAFHG”的关系矩阵(编码维度为16，-1不需要参数空间编码距离计算)，二者长度较小者为有效编码长度，为8；2)多次扫描产生同序阶梯，确定最长同序长度(图中生成蓝、红、黄3个同序阶梯，其中蓝色同序阶梯的阶梯数最多，则最大同序长度为7)，计算获得空间编码的相似度为7/8＝0.875。

Claims

1.一种适用于视频/图像局部特征的空间关系匹配方法，其特征在于，包括：

2.如权利要求1所述的适用于视频/图像局部特征的空间关系匹配方法，其特征在于，所述步骤1包括计算视频图像特征点之间的位置距离，公式为：

P D (i, j) = \sqrt[2]{{(x (i) - x (j))}^{2} + {(y (i) - y (j))}^{2}}

计算邻域空间因子s，公式为：

s = \sqrt[2]{σ \cdot 6}

其中σ为所述尺度信息。

3.如权利要求1或2所述的适用于视频/图像局部特征的空间关系匹配方法，其特征在于，还包括所述邻域空间是以所述视频/图像特征点为中心，半径为α·s的圆，其中1≤α≤2，α为缩放系数。

4.如权利要求1所述的适用于视频/图像局部特征的空间关系匹配方法，其特征在于，所述步骤2包括：

5.如权利要求4所述的适用于视频/图像局部特征的空间关系匹配方法，其特征在于，通过如下公式融合特征点视觉相似度及空间关系编码相似度：

Sim＝(λ·sim_v+sim_s)·w

6.一种适用于视频/图像局部特征的空间关系匹配系统，其特征在于，包括：

7.如权利要求6所述的适用于视频/图像局部特征的空间关系匹配系统，其特征在于，所述生成空间关系编码模块包括计算视频图像特征点之间的位置距离，公式为：

P D (i, j) = \sqrt[2]{{(x (i) - x (j))}^{2} + {(y (i) - y (j))}^{2}}

计算邻域空间因子s，公式为：

s = \sqrt[2]{σ \cdot 6}

其中σ为所述尺度信息。

8.如权利要求6或7所述的适用于视频/图像局部特征的空间关系匹配系统，其特征在于，还包括所述邻域空间是以所述视频/图像特征点为中心，半径为α·s的圆，其中1≤α≤2，α为缩放系数。

9.如权利要求6所述的适用于视频/图像局部特征的空间关系匹配系统，其特征在于，所述空间关系匹配模块包括：

10.如权利要求9所述的适用于视频/图像局部特征的空间关系匹配系统，其特征在于，通过如下公式融合特征点视觉相似度及空间关系编码相似度：

Sim＝(λ·sim_v+sim_s)·w