CN110909778B

CN110909778B - 一种基于几何一致性的图像语义特征匹配方法

Info

Publication number: CN110909778B
Application number: CN201911098020.6A
Authority: CN
Inventors: 周忠; 吴威; 陈朗; 吕伟; 李萌
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2023-07-21
Anticipated expiration: 2039-11-12
Also published as: CN110909778A

Abstract

本发明公开了一种基于几何一致性的图像语义特征匹配方法，该方法包括语义特征提取、特征匹配初始化、特征匹配定位优化以及图像语义对齐等步骤。其中语义特征提取是使用卷积神经网络提取高层语义特征，来构建五层语义特征金字塔；特征匹配初始化是在特征金字塔顶层基于几何一致性，设计语义特征匹配约束规则，构建能量函数；特征匹配定位优化是为了提高特征匹配的定位精度，通过金字塔反向传播算法，逐层提高特征匹配对的准确率；最后，采用局部几何变换模型估计待匹配图像之间的几何变换模型参数，进行图像变形，实现图像语义对齐。本发明能够提高语义特征匹配的精度，并实现前景目标几何姿态、朝向的对齐。

Description

一种基于几何一致性的图像语义特征匹配方法

技术领域

本发明涉及图像特征匹配技术，更具体的讲，涉及一种图像语义特征匹配的方法，在具备同一属性类别标签的不同目标图像间建立点对点的特征匹配关系，属于数字图像处理领域和计算机视觉领域。

背景技术

图像特征匹配是指在图像内容信息相同或者相似的场景下，在图像内检索显著特征信息，并使用特征描述子对特征信息进行量化，然后根据特征描述子之间的相似性程度确定图像间特征与特征之间点对点的匹配关系。图像特征匹配在图像拼接、三维重建、SLAM等计算机视觉领域中有着非常重要的作用。本发明涉及图像语义特征匹配，是图像特征匹配领域下的子问题，它主要针对的场景为：待匹配的图像间没有绝对的重叠信息，但存在具备同一属性类别标签的前景目标，前景目标之间的几何外观、形状、姿态等高层语义信息是十分相似的，比如解决一辆奔驰汽车与宝马汽车之间的特征匹配关系即属于语义特征匹配的研究范畴。当前，图像语义特征匹配在影视特效制作、图像场景数据合成、目标跟踪等图形图像应用中有着非常可观的应用价值。

本发明前，已经有人对图像语义匹配技术做了相关研究。Liu Ce等发表论文“Siftflow:Dense correspondence across scenes and its applications”(IEEEtransactions on pattern analysis and machine intelligence,33(5):978–994,2011),这是语义匹配技术相关的第一项研究工作，它从待匹配图像中提取仿SIFT特征，为每个像素点分配128维度的特征描述子，然后根据光流的思想设计能量函数，求解每个像素点的矢量位移，实现像素级的匹配关系，并根据矢量位移实现图像对齐。由于该方法是像素级的匹配算法，因此计算复杂，匹配效率低。此外，它采用的特征描述子是仿SIFT特征，对颜色、梯度等敏感，误匹配较为明显。B.Ham等发表论文“Proposal Flow”(IEEE Conferenceon Computer Vision and Pattern Recognition,pages 3475–3484,2016)，它同样采用光流的思想，但是使用预处理算法在图像中查找包含语义目标信息的数据块，然后以块为单位，建立图像块之间的矢量位移一致性方程。通过求解图像内前景目标块之间的匹配关系，不仅提高了匹配计算效率，还过滤了一定的背景冗余特征，提高了匹配精度。但是，该方法使用的描述子仍然聚焦于低层纹理的颜色、梯度等信息，鲁棒性较低，且需要使用预处理算法提取包含前景目标信息的数据块，处理较为繁琐，对预处理算法的依赖性较高。此外，它对齐模型使用的仍是光流，图像变形时畸变、失真严重，对齐效果差。Jing Liao等发表论文“Visual Attribute Transfer through Deep Image Analogy”(ACM Transactions onGraphics,36(4):1–15,2017)，它使用卷积神经网络提取语义特征和特征描述子，但是直接基于特征描述子进行最近邻匹配，对特征描述子的依赖性太高，而获取的特征描述子信息较为冗余，缺乏显著特征的量化机制，以至于产生较多的误匹配。此外，它使用语义特征匹配结果直接计算待匹配图像间具备8个自由度参数的全局单应矩阵模型，对齐能力差，没有充分利用图像的局部相关性。

分析现有的相关语义匹配技术发现，图像语义匹配技术还不够成熟，仍有较大的改进空间，当前仍然存在以下几点挑战：1)特征提取时，现有方法仍主要使用传统的SIFT等人造特征的技术路线，过于关注局部邻域的颜色、梯度等纹理信息，特征描述子的区分度不够高；2)特征描述子信息较为冗余，现有方法直接依赖特征描述子进行相似性估计，误匹配较高，且没有充分利用待匹配图像间的几何信息；3)图像对齐时，现有方法直接采用光流或者全局单应矩阵模型，图像变形产生的畸变、失真较为明显，对齐效果差。

发明内容

本发明的目的是：克服现有技术的不足，提供一种基于几何一致性的语义特征匹配方法。根据语义特征匹配的特点，在使用卷积神经网络提取对颜色、梯度等纹理差异较为鲁棒的语义特征基础上，根据几何一致性原理，设计若干约束项，丰富语义特征匹配的规则，并使用金字塔反向传播算法提高特征匹配的定位精度。此外，充分分析图像的局部特征，建立待匹配图像间的局部几何变换模型，提高图像的语义对齐能力。本发明提出了一种基于几何一致性的图像语义特征匹配方法，包括如下步骤：

步骤1、语义特征提取步骤

所述语义特征提取是使用预训练的图像分类网络提取图像语义特征，并根据神经网络的输出构建特征金字塔，步骤具体为：

(1.1)使用预训练的图像分类网络分别提取待匹配图像的语义特征；

(1.2)针对每张输入图像，分别选取图像分类网络中若干隐藏层的特征图输出来构建一个五层特征金字塔；

(1.3)对每一层特征金字塔包含的语义特征进行特征显著性量化，挑选显著特征集合；

步骤2、语义特征匹配初始化步骤

所述特征匹配初始化是在特征金字塔的顶层，通过定义多种约束项并最小化能量函数来初始化语义匹配结果，步骤具体为：

(2.1)在特征金字塔顶层，选取步骤(1.3)确定的显著特征集合；

(2.2)在步骤(2.1)中确定的显著特征集合内，根据几何一致性算法，构造包含表观一致性约束项、朝向一致性约束项和相对距离一致性约束项的能量函数，通过最小化能量函数来求解在特征金字塔顶层的语义特征初始化结果；

步骤3、特征匹配定位优化步骤

所述特征匹配定位优化是沿着特征金字塔自顶而下，使用金字塔反向传播算法不断对高层的特征匹配结果进行矫正，步骤具体为：

(3.1)判断当前特征金字塔的层级是否是最底层，若不是，则继续，否则退出；

(3.2)根据上一层的特征匹配结果，计算对应特征在当前层的感知野范围，确定当前层的特征匹配块结果；

(3.3)以步骤(3.2)中确定的特征匹配块为单位，使用颜色空间均匀化策略对特征匹配块进行预处理，缓解颜色、梯度差异对语义匹配的影响；

(3.4)基于步骤(3.3)中处理完成后的特征匹配块，使用互近邻搜索算法，获取定位更加精确的特征匹配对；

(3.5)使用RANSAC算法对特征金字塔当前层级的语义特征匹配结果进行过滤，剔除误匹配和非显著性特征匹配，然后沿着金字塔向下滑动一级，重复步骤(3.1)、(3.2)、(3.3)、(3.4)、(3.5)；

步骤4、图像语义对齐步骤

所述图像语义对齐是根据特征匹配的结果，估计待匹配图像间的局部几何变换模型参数，进行图像变形，步骤具体为：

(4.1)对源图像进行均匀网格划分；

(4.2)量化源图像中每一个网格中心点与所有特征匹配对之间的位置关系，并根据位置关系，给予不同特征匹配对相应的权重系数，权重系数代表对应的特征匹配对对求解当前网格的几何模型参数的影响程度；

(4.3)顺序遍历每一个网格，根据步骤(4.2)中确定的当前网格中心点与所有特征匹配对之间的权重关系，构造能量函数，迭代计算、更新当前网格的几何变换模型参数；

(4.4)使用步骤(4.3)中的几何变换模型参数对源图像进行变形，将源图像投影变换到目标图像所在的坐标空间内，实现源图像、目标图像间的图像语义对齐，使得二者内前景目标的几何姿态、朝向趋向于一致；

在步骤1的图像语义特征提取中，将待匹配图像分别输入预训练的图像分类网络，选取图像分类网络内指定的五个隐藏层的输出来构建特征金字塔，并根据特征金字塔内特征描述子的显著性量化指标，确定每层的显著特征集合，使用卷积神经网络学习到的特征替代对颜色、梯度信息较为敏感的SIFT特征。

进一步的，在步骤2的图像语义特征匹配初始化中，使用几何一致性构造约束项来进行特征匹配初始化；在特征描述子最近邻匹配的基础上，对特征匹配的约束规则继续添加额外约束项，使得特征匹配时能利用更多的图像信息。

进一步的，在步骤3特征匹配定位优化中，步骤(3.2)将特征金字塔中高层的特征匹配结果反向传播到低层，获取基于感知域的特征匹配块；然后在特征匹配块内进行后处理，借鉴风格迁移的思想引入颜色空间均匀化机制，在特征匹配块内搜索定位更为精确的特征匹配对，从而不断更新特征金字塔低层的特征匹配对，不断提高特征匹配对的定位精度；特征金字塔自顶而下，符合“Pixel→Patch→Pixel”的由粗到精的特征匹配优化过程。

进一步的，在步骤4图像语义对齐中，步骤(4.3)根据图像局部区域的个性化特点，考虑网格与所有特征匹配对之间的位置关系,为不同区域块估计出不同的几何变换模型，有利于缓解图像变形过程中的失真、畸变现像。

进一步的，语义特征提取步骤，区别于传统的SIFT、SURF等人造特征，预训练的图像分类网络学习到的图像特征对低层的颜色、梯度等差异敏感度低，可有效提取边缘、形状等高层语义特征，符合语义特征匹配的特征提取需求。因此，本方法将待匹配分别输入预训练的图像分类网络，选取图像分类网络内指定的五个隐藏层的输出来构建特征金字塔，包含了丰富的语义特征，并根据特征金字塔内特征描述子的显著性量化指标，确定每层的显著特征集合。

进一步的，语义特征匹配初始化步骤，本方法充分利用图像间的几何信息，基于几何一致性理论，设计了表观一致性、朝向一致性、相对距离一致性约束项，在特征金字塔顶层通过最小化能量函数来初始化语义特征匹配。在特征描述子最近邻匹配的基础上，添加额外约束项，丰富特征匹配的约束规则，提高了特征匹配初始化的准确率。

进一步的，语义特征匹配定位优化步骤，本方法根据特征金字塔各层尺度不一的特点，不断将高层的特征匹配结果反向传播到低层的感知域内，然后在感知域内进一步搜索满足互近邻特性的特征匹配对，不断迭代更新每一层的特征匹配对，实现一个由特征匹配对到特征匹配块，再到特征匹配对的由粗到精的匹配优化过程。

进一步的，图像语义对齐步骤，本方法根据图像的局部相关性，以及图像不同区域特征不一的特点，在特征匹配结果的基础上，为图像的不同区域估计单独的具备8个自由度参数的局部单应矩阵模型。

本发明的重点在于基于几何一致性的图像语义特征匹配初始化算法和基于金字塔反向传播的匹配优化算法，本发明针对图像语义匹配的需求，在特征匹配、图像对齐等方面进行了技术研究和算法改进，提出了有效的处理策略。本发明与现有技术相比的优点在于：

1)特征提取环节，使用卷积神经网络自适应提取高层语义特征，对颜色、梯度差异的鲁棒性高，提取到的边缘、形状信息丰富，符合语义特征匹配的特征提取要求；

2)在特征匹配环节，确定了由粗到精的二步匹配策略。首先利用语义匹配的几何信息，提出几何一致性，设计包含若干约束项的能量函数，丰富了语义匹配的约束规则；其次，在特征金字塔中，自顶而下，使用反向传播算法，不断对上层的特征匹配结果进行矫正、更新；

3)图像对齐环节，对图像进行区域划分，为不同区域估计不同的几何变换模型，使得几何模型参数的泛化能力更强，完全符合图像局部区域的特点。在局部几何变换模型的作用下，图像变形过程中产生的畸变、失真现象更少，前景目标的对齐能力更强。

附图说明

图1为本基于几何一致性的图像语义特征匹配方法的总体流程示意图；

图2a为图像输入示意图；

图2b为图像语义特征匹配示意图；

图2c为图像语义对齐示意图；

图3为朝向一致性和相对距离一致性的原理示意图；

图4为特征金字塔反向传播算法的计算方法示意图。

具体实施方式

本发明提出的基于几何一致性的图像语义匹配方法的流程如图1所示，具体步骤如下：

步骤1.对待匹配的图像进行语义特征提取。首先，分别将待匹配图像I_A、I_B输入预训练的VGG19网络，进行语义特征提取；然后，指定将VGG19网络中relu1_1、relu2_1、relu3_1、relu4_1、relu5_1层的输出来构建特征金字塔的第1，2，3，4，5层；最后，使用Min-Max标准化策略对特征金字塔每一层的语义特征进行显著性量化，构造显著特征集合Key_Points。

步骤2.在特征金字塔的顶层进行语义特征匹配的初始化。根据待匹配图像中相似的几何信息，设计了具备一定约束能力的表观一致性约束项、朝向一致性约束项和相对距离一致性约束项，组建担当匹配约束规则的能量函数。最终，通过启发式算法最小化能量函数，获取特征金字塔顶层的特征匹配初始化结果。

1)从显著特征集合Key_Points中抽取处于特征金字塔顶层的显著特征子集。

2)特征匹配初始化。构造包含三个约束项的能量函数，丰富语义匹配规则，尽可能减少语义匹配初始化时产生误匹配的可能性。该能量函数包含表观一致性约束项、朝向一致性约束项和相对距离一致性约束项，如公式所示：

E(V)＝E_S(V)+λ_DE_D(V)+λ_OE_O(V)

其中λ_D、λ_O为常量权重系数，V为待求解的特征匹配初始化结果，E_S(V)、E_D(V)、E_O(V)等约束项具体如下：

a)表观一致性约束项E_S(V)。表观一致性约束项是针对任意单对语义特征匹配对设定的，用于衡量图像特征信息之间的相似性，量化方式为显著特征描述子之间的余弦相似性，定义为：

其中σ_S为常量因子，(p，q)为一对特征匹配对，如图3所示。此外，sim()即为余弦相似性度量函数，用于度量特征描述子之间的相似性，分别为待匹配图像在特征金字塔顶层的显著特征集合。

b)相对距离一致性约束项E_D(V)。如图3所示，共享同一属性标签的二个语义对象间，显著特征点之间的相对距离是近乎一致的，比如二辆汽车的车轴轴心与后视镜镜片中心间的相对距离以及不同行人的耳朵与眼睛之间的相对距离等等，因此不同显著特征之间的相对距离关系可以为特征匹配提供有效的约束信息。该约束项定义为：

其中，σ_D为常量因子，(p，q)，(p′，q′)为二对特征匹配对，如图3所示。d(·)表示特征点之间的相对位置，采用欧式距离进行量化处理。相对距离一致性约束项衡量图像中显著特征点之间相对位置的差异，位置误差越小，正匹配的可能性越大。这是考虑到待匹配的语义对象中，显著特征所处的位置相对而言比较一致而做出的有效设定。

c)朝向一致性约束项E_O(V)。如图3所示，共享同一属性标签的二个语义对象间，显著特征点之间的相对朝向是近乎一致的，比如二辆汽车的车轴轴心与后视镜镜片中心间的朝向以及不同行人的耳朵与眼睛之间的朝向等等，因此不同显著特征之间的相对朝向可以为特征匹配提供有效的约束信息。因此，朝向一致性约束项定义为：

r(·)表示特征点之间的相对朝向量化函数，可通过反余弦函数求解。此外，σ_O为常量因子，(p，q)，(p′，q′)为二对特征匹配对，如图3所示。

3)通过启发式算法，求解能量函数E(V)，使得能量函数最小化，获取特征金字塔高层的显著特征匹配初始化结果。

步骤3.特征匹配定位优化算法。特征金字塔高层的语义信息在低层对应较大的感知域，只依赖初始化结果在原图上很难定位特征匹配结果。鉴于高层特征在低层的感知域一一确定，可在感知域内使用互近邻算法更新特征匹配对的定位，沿着金字塔自顶而下，逐层提高匹配精度。

1)确定当前所处的特征金字塔层级是否在最底层(I＝1)，若确认在最底层，则特征金字塔的反向传播结束，退出；否则，继续执行金字塔反向传播算法。

2)感知野映射。第l+1层的特征匹配对(p，q)映射到第1层对应一对特征匹配块(P，Q)。令特征点p的坐标为(p_x，p_y)，则第l层的感知域范围为：

P＝[2p_x-r，2p_x+r]×[2p_y-r，2p_y+r]

其中r为感知域的邻域半径。

3)颜色空间均匀化。针对特征匹配块(P，Q)，为了在特征匹配块内更新、矫正特征匹配对，需要首先对特征匹配块进行预处理，以消除颜色、梯度等纹理差异的影响。受风格迁移算法的启发，本方法使用了颜色空间均匀化策略，对特征匹配块进行标准化和颜色空间一致性化处理，不仅可以对特征描述子实现标准化处理，还可以缓解颜色等纹理差异对基于特征描述子的互近邻度量产生的干扰。

4)互近邻搜索。针对经步骤(3)处理后的特征匹配块(P，Q)，这是一对3*3邻域大小的特征匹配块，根据特征匹配块的匹配结果，使用互近邻搜索算法，在窗口的9个特征里确定精度更高的特征匹配结果，并对特征金字塔当前层的匹配结果进行更新。

5)RANSAC过滤。当特征金字塔第l层的匹配结果更新完后，由于存在冗余匹配结果以及误匹配，因此首先过滤掉不在显著特征集合Key_Points里的冗余匹配结果，其次，使用RANSAC算法对剩下的特征匹配结果进行过滤，根据拟合的几何变换模型计算重投影误差，及时剔除误匹配。

6)特征金字塔第l层处理完毕后，自降一层，回到步骤(1)。

步骤4.图像语义对齐算法。为了提高图像语义对齐的精度，本方法使用了基于局部几何变换模型的图像语义对齐算法，来减缓图像变形的畸变、失真等现象。

1)网格划分。对源图像进行均匀网格划分，网格划分密度为15*15，即将源图像划分为225个均匀的网格。

2)量化源图像每个网格与所有特征匹配对之间的位置关系。通过计算网格中心点与特征匹配对之间的高斯欧式距离，而分配给不同特征匹配对不同的权重系数，介于0到1之间，权重的高低代表特征匹配对对中心点所在网格的几何模型参数的影响强弱。

3)估计局部几何变换模型参数。首先确定局部几何变换模型为具备8个自由度参数的单应矩阵；然后顺序遍历每个网格，在(2)中位置量化的基础上，根据特征匹配对与每一个网格的位置关系，生成正规方程，使用最小二乘法求解最优的8个自由度参数，完成局部几何模型的估计；

4)图像变形。当每个网格的局部几何变换模型估计完成后，使用双线性插值算法对源图像进行重投影，将源图像变换到目标图像所在的坐标空间内，实现源图像与目标图像间的语义对齐，期望变形后二者前景目标的几何姿态、朝向等尽可能保持一致。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于几何一致性的图像语义特征匹配方法，其特征在于，包括如下步骤：

步骤1、语义特征提取步骤

(1.3)对每一层特征金字塔包含的语义特征进行特征显著性量化，挑选显著特征集合具体为使用Min-Max标准化策略对特征金字塔每一层的语义特征进行显著性量化，构造显著特征集合Key_Points；

步骤2、语义特征匹配初始化步骤，在步骤2的图像语义特征匹配初始化中，使用几何一致性构造约束项来进行特征匹配初始化，实现在特征描述子最近邻匹配的基础上，对特征匹配的约束规则继续添加额外约束项，使得特征匹配时能利用更多的图像信息；

(2.1)在特征金字塔顶层，选取步骤(1.3)确定的显著特征集合；

步骤3、特征匹配定位优化步骤

(3.5)使用RANSAC算法对特征金字塔当前层级的语义特征匹配结果进行过滤，剔除误匹配，通过显著特征集合剔除非显著性特征匹配，然后沿着金字塔向下滑动一级，重复步骤(3.1)、(3.2)、(3.3)、(3.4)、(3.5)；

步骤4、图像语义对齐步骤，在步骤4图像语义对齐中，步骤(4.3)根据图像局部区域的个性化特点，考虑网格与所有特征匹配对之间的位置关系，为不同区域块估计出不同的几何变换模型，有利于缓解图像变形过程中的失真、畸变现像；

所述图像语义对齐是根据语义特征匹配的结果，估计待匹配图像间的局部几何变换模型参数，进行图像变形，步骤具体为：

(4.1)对源图像进行均匀网格划分；

特征匹配初始化时，在特征金字塔顶层构造了包含表观一致性、朝向一致性、相对距离一致性的能量函数，该能量函数如下面公式所述：

E(V)＝E_S(V)+λ_DE_D(V)+λ_OE_O(V)

其中λ_D、λ_O为常量权重系数，V为待求解的特征匹配初始化结果，E_S(V)为表观一致性约束项、E_D(V)为相对距离一致性约束项、E_O(V)为朝向一致性约束项；

所述表观一致性约束项E_S(V)是针对任意单对语义特征匹配对设定的，用于衡量图像特征信息之间的相似性，量化方式为显著特征描述子之间的余弦相似性，E_S(V)定义为：

其中σ_S为常量因子，(p，q)为一对特征匹配对，sim()即为余弦相似性度量函数，用于度量特征描述子之间的相似性，分别为待匹配图像在特征金字塔顶层的显著特征集合；所述相对距离一致性约束项E_D(V)，采用不同显著特征之间的相对距离关系为特征匹配提供有效的约束信息，该约束项E_D(V)定义为：

其中，σ_D为常量因子，(p，q)，(p′，q′)为二对特征匹配对，d(·)表示特征点之间的相对位置，采用欧式距离进行量化处理；相对距离一致性约束项衡量图像中显著特征点之间相对位置的差异，相对位置误差越小，正匹配的可能性越大；

所述朝向一致性约束项E_O(V)采用不同显著特征之间的相对朝向为特征匹配提供有效的约束信息，朝向一致性约束项E_O(V)定义为：

r(·)表示特征点之间的相对朝向量化函数，可通过反余弦函数求解；σ_O为常量因子，(p，q)，(p′，q′)为二对特征匹配对。

2.根据权利要求1所述的一种基于几何一致性的图像语义特征匹配方法，其特征在于：

在步骤1的图像语义特征提取中，将待匹配图像分别输入预训练的图像分类网络，选取图像分类网络内指定的五个隐藏层的输出来构建特征金字塔，使用卷积神经网络学习到的特征来替代对颜色、梯度信息敏感的SIFT特征，并根据特征金字塔内特征描述子的显著性量化指标，确定每层的显著特征集合。

3.根据权利要求1所述的一种基于几何一致性的图像语义特征匹配方法，其特征在于：

在步骤3特征匹配定位优化中，步骤(3.2)将特征金字塔中高层的特征匹配结果反向传播到低层，获取基于感知域的特征匹配块；然后在特征匹配块内进行后处理，借鉴风格迁移的思想引入颜色空间均匀化机制，在特征匹配块内搜索定位更为精确的特征匹配对，从而不断更新特征金字塔低层的特征匹配对，不断提高特征匹配对的定位精度；特征金字塔自顶而下，符合“Pixel→Patch→Pixel”的由粗到精的特征匹配优化过程。