CN110309835B

CN110309835B - 一种图像局部特征提取方法及装置

Info

Publication number: CN110309835B
Application number: CN201910568791.0A
Authority: CN
Inventors: 游雄; 李钦; 李科; 张威巍; 余岸竹
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2021-10-15
Anticipated expiration: 2039-06-27
Also published as: CN110309835A

Abstract

本发明涉及一种图像局部特征提取方法及装置，属于图像处理技术领域。其中方法包括：构建Siamese网络；选取Siamese网络输出特征向量间的夹角余弦作为图像间的相似度；利用相似度构建误差函数，利用样本图像对Siamese网络进行训练，选取误差最小时的Siamese网络作为图像局部特征提取网络；对待提取的两张整幅图像进行图像块检测，将各图像块组合成图像对，每个图像对包含有分属于两张图像中的各一个图像块，将各图像对输入到图像局部特征提取网络，选取匹配图像块作为待提取整幅图像的局部特征。该方法通过采用特征向量间的夹角余弦计算图像对的相似度，提高选取匹配图像块的效率，进一步提高了图像识别效率。

Description

一种图像局部特征提取方法及装置

技术领域

本发明涉及一种图像局部特征提取方法及装置，属于图像处理技术领域。

背景技术

图像是对真实复杂世界的映射成像，其本质上是由若干像素排列组合而成，图像特征提取的实质是对复杂的图像信息进行抽象，简化的表达，在此基础上才能进一步完成各种视觉任务，如图像检索，图像识别等。

图像局部特征旨在表达图像中局部物体区域本质的不变信息，该特征不因物体在图像中呈现形态的变化而变化，同时不同物体的特征又存在着本质的区别，就像无论人的外在形态怎样变化，其基因总是保持不变，而即使两个人外形很相似，但各自基因却有着本质的区别。

由于拍摄角度、拍摄环境或拍摄者的不同，同一物体在不同图像上会呈现不同的形态，然而用以表达该物体的特征应尽可能保持稳定；另一方面，由于现实世界的复杂性，不同物体在图像上的成像可能视觉上很相似，但是各自物体的特征应该有明显的区分。物体特征这种既能维持自身稳定，又能与其它物体进行有效区分的能力，也叫做特征的表达能力。因此，构建图像物体特征的目标是使同一物体在不同图像上的特征距离尽可能的小，同时使不同物体特征距离尽可能的大。为此，有人提出采用Siamese网络进行图像识别，但目前在利用Siamese网络进行图像识别时采用Siamese网络中两个模型输出向量的欧氏距离作为两幅图像的相似度，并以相似度为基础构建误差函数，而采用欧式距离作为相似度，在进行相似度计算时，需要特征两两组合，进行遍历，运算次数多，影响了图像识别的效率。

发明内容

本发明的目的在于提供一种图像局部特征提取方法，以解决目前采用Siamese网络进行特征提取时运算量大、效率低的问题；同时还提供一种图像局部特征提取装置，目前采用Siamese网络进行特征提取时运算量大、效率低的问题。

为实现上述目的，本发明提出一种图像局部特征提取方法，包括以下步骤：

1)构建Siamese网络；

2)选取Siamese网络输出特征向量间的夹角余弦作为图像间的相似度；利用相似度构建误差函数，利用样本图像对Siamese网络进行训练，选取误差最小时的Siamese网络作为图像局部特征提取网络；

3)对待提取的两张整幅图像进行图像块检测，将各图像块组合成图像对，每个图像对包含有分属于两张图像中的各一个图像块，将各图像对输入到图像局部特征提取网络，选取匹配图像块作为待提取整幅图像的局部特征。

另外，本发明还提出一种图像局部特征提取装置，包括存储器、处理器以及存储在所述存储器中并在处理器上运行的计算机程序，所述处理器在执行所述计算机程序时实现上述的图像局部特征提取方法。

有益效果是：在训练图像局部特征提取网络的过程中，将特征向量间的夹角余弦作为图像间的相似度，因此相似度的阈值为[0,1]，是有边界的，不仅为后续通过交叉熵建立误差函数提供便利条件，而且还可以提高准确率；同时选取匹配图像块过程中，通过图像对的结合，采用特征向量间的夹角余弦计算图像对中图像块的相似度，只需进行点乘运算即可，无需进行遍历，减小运算次数，提高选取匹配图像块的效率，进一步提高了图像识别效率。

进一步的，上述图像局部特征提取方法及装置中，Siamese网络包括7个卷积层和2个全连接层。

有益效果是：7个卷积层和2个全连接层构成的Siamese网络具有最佳的匹配效果。

进一步的，上述图像局部特征提取方法及装置中，误差函数是通过交叉熵的方式构建得到。

有益效果是，通过交叉熵构建的误差函数可以更加精确的训练Siamese网络，进而得到更加准确的图像局部特征提取网络。

进一步的，上述图像局部特征提取方法及装置中，误差函数为：

其中，S_i为第i组训练样本的相似度，一组训练样本包括样本图像中任意两张图像块，n为训练样本的数量，L_i为第i组训练样本的训练标签，所述训练标签为0或者1，1表示该组训练样本中的图像块匹配，0表示该组训练样本中的图像块不匹配。

进一步的，上述图像局部特征提取方法及装置中，7个卷基层中的第一、第二、第五和第七卷积层均包含有降采样操作。

有益效果是：降采样操作可以进一步的抽象原始图像，使数据量变小，减小数据处理量。

进一步的，上述图像局部特征提取方法及装置中，步骤3)中采用Edge算法对待提取的整幅图像进行图像块检测。

有益效果是：通过Edge算法对待提取的整幅图像进行图像块检测可以保证检测图像块的精度。

进一步的，上述图像局部特征提取方法及装置中，还包括对检测到的图像块进行非极大值抑制操作的步骤。

有益效果是：非极大值抑制操作可以减少重复的图像块，有效的保留包含实际物体的图像块。

附图说明

图1为本发明的Siamese网络结构；

图2-1、图2-2、图2-3、图2-4为本发明训练样本的数据中匹配的图像块；

图3-1、图3-2、图3-3、图3-4为本发明训练样本的数据中不匹配的图像块；

图4为本发明图像局部特征提取网络训练前相似度的计算结果；

图5为本发明图像局部特征提取网络训练后相似度的计算结果；

图6为本发明待提取的第一张整幅图像的位置平面图；

图7为本发明待提取的第二张整幅图像的位置平面图；

图8为本发明筛选前的图像序列拍摄点位置平面图；

图9为本发明筛选后的图像序列拍摄点位置平面图；

图10为本发明的余弦函数图；

图11为本发明图像局部特征提取网络的准确率-召回率曲线与基于欧式距离的图像匹配网络的准确率-召回率曲线对比图。

具体实施方式

图像局部特征提取方法实施例：

本发明的主要构思在于，采用训练好的图像局部特征提取网络，接收两张图片作为输入，对图片进行图像块检测，构建各图像块的特征向量，将两张图片中的图像块的特征向量间的夹角余弦作为图像块之间的相似度，余弦值越大，特征向量间的夹角越小，图像块越相似，即图像块匹配，匹配的图像块即整幅图像的局部特征，进而识别图像。

本实施例提出的图像局部特征提取方法，包括如下步骤：

1)构建Siamese网络。

本实施例中，所构建的Siamese网络结构(Siamese网络即暹罗网络，也叫做孪生网络，)如图1所示，其中，Siamese网络结构包括两个相同的特征提取网络，每个特征提取网络为包含7个卷积层，2个全连接层的深度卷积网络，其具体结构如表一所示。当然，本发明对特征提取网络中的卷积层和全连接层的数量并不做限制，但是要包含卷积层和全连接层，可以进行网络训练即可。

表一中的每个卷积层均包含卷积操作(Conv)与非线性操作(Relu)。非线性操作保证了训练过程中各特征数值的非负性；卷积操作是特征提取网络的核心，通过对输入图像的层层卷积，可以获得不同类型、不同层次的特征表达，这些特征能够充分反映图像中隐含的抽象语义信息，使得最终构建的图像特征更具本质性。

表一特征提取网络结构

部分卷积层Conv1、Conv2、Conv5、Conv7包含降采样操作(MaxPool)，降采样操作使得输出特征图尺寸不断缩小，降采样操作的结果使得输出特征图上的每个像素覆盖了原始图像上更大区域，这实质上是对图像空间区域结构的高效整合，是对原始图像的进一步抽象。

通过对输入图像进行层层卷积与降采样操作最终生成256张4×4的特征图，对输出特征图进行拉直组合生成4096维的图像块初始特征向量。为了进一步对特征向量进行精炼简化，构建两层的全连接网络对描述符进行降维，生成128维的图像特征向量，为了方便利用描述符进行相似度计算，对第2全连接层(Fc2)的输出进行了归一化操作(l2_norm)，使所得的图像特征向量的长度为1。

2)Siamese网络的特点是接收两张图片(即第一图像块和第二图像块)作为输入，且两张图片通过完全相同的权值共享的特征提取网络，构建各自特征向量，通过比对两张图片特征构建网络训练误差函数。本发明选取Siamese网络输出特征向量间的夹角余弦作为图像间的相似度；利用相似度构建误差函数选取误差最小时的Siamese网络作为图像局部特征提取网络。

由于输出的特征向量各维度均为正数，且余弦函数是有界函数，计算所得的图像间的相似度S∈[0,1]，图像间的相似度上限为1，其阈值范围与网络标签L(即训练标签)相对应，图像匹配标签为1，图像不匹配标签为0，因此方便利用网络输出的上下限构建误差函数。

由于特征提取网络输出的特征向量长度为1，特征向量点乘结果即为其夹角余弦，两张图片输出的特征向量为

和

图像间的相似度的计算公式为：

从上述公式可以看出，余弦值越大表明特征向量间的夹角越小，即特征向量间的特征距离越小，图像越相似。

利用样本图像对Siamese网络进行训练，选取误差最小时的图像局部特征提取网络。

本实施例中，误差函数是基于交叉熵构建的，作为其他实施方式，本发明对误差函数的构建不做任何限制，只要可以对Siamese网络进行训练即可。具体图像块相似度误差函数的公式为：

通过不断的迭代训练使得匹配图像块间的特征距离尽可能的趋于1，而不匹配图像块间的相似度尽可能的趋于0。

为了训练图像局部特征提取网络，本实施例采用多视角立体数据集(Multi-ViewStereo dataset,MVS)，该数据集包含1.5M张尺寸为64×64的灰度图像块与500K个空间点，每张图像块都是从不同视角观测某个空间点获取的。任意两张图像块即可组成一组训练样本，若两张图像块观测的是相同的三维点(即空间点)，如图2-1、图2-2、图2-3、图2-4所示，为匹配图像块(正样本)，反之如图3-1、图3-2、图3-3、图3-4所示，为不匹配图像块(负样本)。

数据集包含三组场景数据：自由神像(Statue of Liberty,LY)、巴黎圣母院(Notre Dame,ND)和约塞米蒂半圆体(Half Dome in Yosemite,YO)，本实施例采用LY与YO数据集进行训练，采用ND数据集进行测试，2组训练数据中的训练样本总数100万(正负样本各50万)。

训练过程中，将所有的训练数据遍历101次，每次遍历分为2000个批次，按照每批次500组样本(正负样本各250组，两组训练数据各250组)输入特征提取网络。采用随机梯度下降(Stochastic Gradient Descent，SGD)对误差函数进行优化，为了获得最优的模型(即图像局部特征提取网络)，设置初始学习率为0.01，学习率衰减系数为0.9。

学习率决定了参数移动到最优值的速度快慢，较大的学习率虽然会加快优化速度，但极可能会越过最优值；较小的学习率会导致优化的效率过低，使得长时间算法无法收敛。为了快速得到最优的训练结果，在网络训练过程中，动态更新学习率，其随着迭代次数的增加而不断衰减如下式：

其中，cur_iter为当前迭代次数，网络训练过程的总迭代次数约为2*10⁵(101*2000)。

选取误差最小时的网络模型进行保存，所得网络模型为图像局部特征提取网络，该模型的输入为原始灰度图像块，输出为单位长度的128维特征向量。

为了检验图像局部特征提取网络的训练效果，随机选取2000组测试样本(ND数据集中的正负样本各1000组)，分别利用训练前与训练后的特征提取网络，构建其特征向量，计算其相似度，绘制训练前后样本相似度对比图如图4、5所示，其中三角形代表正样本，圆点代表负样本，图4中训练前正负样本的相似度数值并没有明显的区分，而图5中训练后正样本相似度数值明显高于负样本，表明基于训练后的图像局部特征提取网络构建的特征向量使得匹配图像块间的特征距离变小，而非匹配图像块间的特征距离变大，在有效的匹配正样本的同时，也可以较好的区分负样本。

以下通过上述训练后的图像局部特征提取网络进行图像块匹配，待提取的整幅测试图像如图6、7所示，该两张整幅图像并未在上述训练以及测试的数据集中。对待提取的两张整幅图像进行局部图像块的匹配，首要问题是对这两张整幅图像进行图像块检测，使各图像块中尽可能的包含实际有意义的物体。

本实施例中，采用Edge算法对整幅图像进行图像块检测，具体为Edge Boxes算法(即边缘盒算法)，该算法如图8所示，通过对整幅图像进行边缘检测得到图像中的边缘信息；通过对边缘点进行多次聚合，将同一物体的轮廓边缘汇集到同一组中，最终根据各边缘组的外包围框确定各图像块，即检测到的图像块边框，通过图8可以看出，基于Edge Boxes算法检测到的图像块边框具有较多的重叠区域，因此需要对图像块进行非极大值抑制操作(Non Maximum Suppression,NMS)的处理，该处理过程可以在减少重复图像块的同时，还有效保留可能包含实际物体的图像块。作为其他实施方式，本发明对图像块检测的具体实施方式不做限制，只要可以实现图像块的检测即可，而且，若保证图像块检测精确的情况下，也可以不进行非极大值抑制操作的处理。

本文在图像块检测的基础上，为了构建各图像块的特征表达，需要调整图像块尺寸，单位为像素(调整为64×64),以满足图像局部特征提取网络的输入要求。为了减少图像块缩放对特征提取的影响，本文对图像块的原始尺寸进行约束，约束公式为：

64×64＜W×H＜256×256，0.5＜W/H＜2.0，

其中，W、H分别为图像块的宽度与高度。

通过控制图像块的高度与宽度，剔除尺寸过小或者过大的图像块，同时去除高宽差异较大的图像块，图像块按照上述方法进行筛选后，结果如图9所示，剩余图像块间的重复内容大大减少，且图像块尺寸适中，形状方正，使得其在缩放过程中产生的形变也相对较少，这就为构建具有较强表达能力的图像块特征提供了良好的条件。图8、9是为了体现筛选的过程而选用的图像，因此与图6、7不相同。

对待提取的两张整幅图像进行图像块检测以及图像块的调整和筛选后，所得到的图像块如图6、7中边框内的图像块，将各图像块组合成图像对，每个图像对包含有图6中的一个图像块和图7中的一个图像块，将各图像对输入到上述训练后的图像局部特征提取网络，利用图像局部特征提取网络构建各图像对中每个图像块的特征向量，这两张整幅图像上的图像块的特征向量堆叠而成的特征矩阵标记为：

F₁∈R^M×128，F₂∈R^N×128，

其中，F₁为图6的特征矩阵，M为图6上检测到的图像块数目，F₂为图7的特征矩阵，N为图7上检测到的图像块数目，R^M×128、R^N×128分别代表纬度为M×128和N×128的矩阵。

接下来，计算两张图像图6、图7中各图像块间的相似度，构建相似度矩阵为：

S＝F₁·F₂ ^T，

其中，F₂ ^T为F₂的转置矩阵，S∈R^M×N，相似度矩阵中的任意一个元素s_ij代表图6中第i个图像块与图7中第j个图像块间的相似度，为图6中第i个图像块的特征向量与图7中第j个图像块的特征向量间的夹角的余弦值。余弦函数如图10所示，图10的横坐标表示为弧度制中的特征向量间的夹角，纵坐标表示余弦值，在余弦值为0的附近值域变化较小，为了让图像块间的相似度差异更加明显，将相似矩阵变换为：

S_A＝arccos(S)，

这样将图像块间的相似度矩阵S变为其特征向量间的夹角的矩阵S_A，特征向量间的夹角越小，各图像对中的图像块越相似。

S_A中的第i行元素集合为：R_i＝{arccos(s_ij),j＝1,2,...,N}，

S_A中的第j列元素集合为：C_j＝{arccos(s_ij),i＝1,2,...,M}，

对于S_A中的任意一个元素s_pq，若满足：

s_pq＜T_M，s_pq＝min(C_q)，s_pq＝min(R_p)，

则图像块匹配，其中，T_M为图像对中的图像块特征向量之间的夹角匹配阈值，本实施例中，将夹角匹配阈值设置为π/6，若s_pq小于该夹角匹配阈值，且在其所在行列上均是最小值，则该图像对中的图像块(图6上的第p个图像块与图7上的第q个图像块)相互匹配。

图6、7的整幅图像中包含一致性的内容，其中细实线方框内的图像为检测到的图像块，两张整幅图像中粗虚线为对应区域最终检测到的匹配图像块。

经上述过程可以看出，基于Siamese网络结构构建的图像局部特征提取网络具有很好的泛化能力，该图像局部特征提取网络能够准确匹配图像对中相同的图像块，区分不同的图像块，可以高效快速的进行图像块的匹配，进而识别图像。

本发明提出的图像局部特征提取方法运用矩阵点乘运算完成多组图像对的相似度计算，具有更高的计算效率，而且基于余弦函数(即余弦距离)的图像对的相似度取值范围为[0,1]，是有界的，无需人为设置边界值(基于欧氏距离的误差函数，需要人为根据经验设置边界值)图像标签为1或0，基于余弦函数的误差函数可以获得更好的匹配效果(即准确率高)。

为了量化图像局部特征提取网络的表达能力(即匹配效果)，设置相似度阈值计算正样本的召回率与准确率，召回率与准确率的计算公式如下：

其中，R为召回率，P为准确率，N_TP为基于相似度计算判断的正样本中判断正确的正样本的数目，N_P为正样本总数，N_T为根据相似度数值判断为正样本的数目(相似度数值大于设置的相似度阈值)。

为了验证本发明的图像局部特征提取网络的优越性，基于欧式距离的图像匹配网络与本发明的图像局部特征提取网络分别利用相同的数据集训练各自网络，并在共同的测试集上进行测试(运用50万组LY数据集训练，10万组ND数据进行测试)，绘制准确率-召回率曲线对比图如图11所示，可以看出在相同的召回率时，本发明的图像局部特征提取网络比基于欧式距离的图像匹配网络的准确率更高，也就是说本发明的图像局部特征提取网络构建的图像块特征具有更强的表达能力，在测试数据上取得了更好的匹配效果，其在有效的匹配正样本的同时，也可以较好的区分负样本。

图像局部特征提取装置实施例：

本实施例提出的图像局部特征提取装置，包括存储器、处理器以及存储在所述存储器中并在处理器上运行的计算机程序，所述处理器在执行所述计算机程序时实现图像局部特征提取方法。

图像局部特征提取方法的具体实施过程在上述图像局部特征提取方法实施例中已经介绍，这里不做赘述。

Claims

1.一种图像局部特征提取方法，其特征在于，包括以下步骤：

1)构建Siamese网络；

相似度的计算为：

其中，S为相似度；

为第一图像的特征向量；

为第二图像的特征向量；

所述误差函数是通过交叉熵的方式构建得到，所述误差函数为：

其中，S_i为第i组训练样本的相似度，一组训练样本包括样本图像中任意两张图像块，n为训练样本的数量，L_i为第i组训练样本的训练标签，所述训练标签为0或者1，1表示该组训练样本中的图像块匹配，0表示该组训练样本中的图像块不匹配；

3)对待提取的两张整幅图像进行图像块检测，得到每张整幅图像对应的图像块；对每张整幅图像对应的图像块进行筛选，筛选的步骤包括：根据图像块的高度与宽度剔除尺寸过小或者过大的图像块，同时去除高宽差异较大的图像块，大小，进而得到每张整幅图像筛选后的图像块；将各图像块组合成图像对，每个图像对包含有分属于两张图像中的各一个图像块，将各图像对输入到图像局部特征提取网络，得到各图像对中每个图像块的特征向量，根据特征向量计算出各图像对的相似度，进而构建相似度矩阵；所述相似度矩阵为特征向量间的夹角的矩阵S_A，若矩阵S_A中第p行、第q列的元素s_pq满足：s_pq＜T_M，s_pq＝min(C_q)，s_pq＝min(R_p)，则s_pq对应的图像对中的图像块匹配，其中，T_M为图像对中的图像块特征向量之间的夹角匹配阈值，min(C_q)为矩阵S_A第q列的最小值；min(R_p)为矩阵S_A中第p行的最小值；

选取匹配图像块作为待提取整幅图像的局部特征。

2.根据权利要求1所述的图像局部特征提取方法，其特征在于，所述Siamese网络包括7个卷积层和2个全连接层。

3.根据权利要求2所述的图像局部特征提取方法，其特征在于，所述7个卷积层中的第一、第二、第五和第七卷积层均包含有降采样操作。

4.根据权利要求1所述的图像局部特征提取方法，其特征在于，所述步骤3)中采用Edge算法对待提取的整幅图像进行图像块检测。

5.根据权利要求1或4所述的图像局部特征提取方法，其特征在于，该方法还包括对检测到的图像块进行非极大值抑制操作的步骤。

6.一种图像局部特征提取装置，包括存储器、处理器以及存储在所述存储器中并在处理器上运行的计算机程序，其特征在于，所述处理器在执行所述计算机程序时实现权利要求1-5中任一项所述的图像局部特征提取方法。