CN111652240A

CN111652240A - 一种基于cnn的图像局部特征检测与描述方法

Info

Publication number: CN111652240A
Application number: CN201911307649.7A
Authority: CN
Inventors: 黎宁; 李亚红; 宋子昂; 徐帆; 梅劲松; 朱江; 夏宝前
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-09-11
Anticipated expiration: 2039-12-18
Also published as: CN111652240B

Abstract

本发明公开了一种基于CNN的图像局部特征检测与描述方法。首先生成简单几何图形，标记其角点为关键点，形成合成数据集，然后改进MagicPoint基础网络，使用合成数据集训练关键点检测器。为弥补合成图像数据集与真实图像数据集的差距，对真实图像(COCO数据集)进行多次单应变换并用关键点检测器预测关键点，将多次单应变换结果合并，最终得到真实图像的关键点标签。使用有标签的真实图像数据集对关键点和描述符进行端到端的训练，对一张输入图像，可同时完成关键点检测与描述符生成。该技术能够在光照变化大的场景下依旧检测出较多鲁棒性好的关键点，提高后期图像匹配等任务的准确性，具有较强的实用性和广阔的应用前景。

Description

一种基于CNN的图像局部特征检测与描述方法

技术领域

本发明涉及图像局部特征领域，具体地说是一种基于CNN的图像局部特征检测与描述方法。

背景技术

图像处理中，由于图像的种类数量繁多，且单幅图像传递的颜色特征、纹理特征、形状特征、空间关系特征等信息较为复杂，如何描述这些图像特征成为一个关键性难题。所提取的图像特征传递的信息质量将直接影响对图像处理的结果。在深度学习受到广泛关注之前，人们普遍倾向于手工设计的图像特征提取工具。通过设计某种准则，在图像中选择局部纹理特点较为突出的具有明确含义的像素点，例如角点、边缘等。然而，要设计出精巧高效的手工图像特征，往往需要研究者具有丰富且扎实的专业知识背景。

卷积神经网络已被证明在大多数图像任务中表现优于手工设计特征。在一些常见的“关键点”预测任务中，比如人体姿态估计、目标检测、房间布局估计等，卷积神经网络学习得很好。而这个技术的核心是拥有一个大型的人工标注数据集。然而对于图像关键点检测任务，如果使用人工标注图像的关键点，不同人对关键点的理解不一致，对于同一幅图像，不同的人会产生不同的标注结果，无法形成标准一致的真值标签。有部分研究使用传统经典算法SIFT等生成关键点标签，但是这会引入传统算法本身的优缺点，不具客观性。为了解决这个问题，创建了没有歧义的几何图形的角点作为关键点标签的合成数据集，并训练关键点训练器。这样不仅避免了大量的人工标注，同时也避免了人工标注的差异性。

目前，已有一些基于CNN的图像特征提取方法的研究。有些是针对关键点检测做的研究，有些是针对描述符做的研究，有文献指出，对于关键点检测或者描述符生成中一方性能做出提升，并不能证明对于整体的图像特征提取任务也有性能提升，所以本技术将利用卷积神经网络同时进行端到端的关键点检测与描述符生成。图像拍摄不可避免地会遇到光照变化的情况(天气变化、遮挡光线等)，如何提高图像关键点在光照变化下的鲁棒性也是需要深入研究的内容。因此，研究一种基于CNN的图像特征提取方法对提高图像特征提取性能有重要意义。

发明内容

本发明所要解决的技术问题是针对传统手工设计图像局部特征描述的不足，利用卷积神经网络技术，提出了一种基于CNN的图像局部特征检测与描述方法，在光照变化大的场景下提高关键点检测与描述性能。

本发明为解决上述技术问题采用以下技术方案：

1)生成简单的几何图形，其角点、交叉点等作为关键点标签，形成合成数据集；

2)使用合成数据集训练关键点检测检测器，改进原基础网络结构MagicPoint；

3)对真实图像(COCO数据集)进行多次单应变换并用关键点检测器预测关键点，将多次单应变换图像关键点预测结果合并，最终得到真实图像的关键点标签；

4)搭建卷积神经网络结构，使用真实图像数据集训练关键点检测与描述符生成任务。

采用上述技术方案与现有技术相比，其有益效果为：在光照变化大场景下，得到的关键点的重复性指标更好，更加稳定，从而对图像匹配等后续图像处理任务效果更佳。

附图说明

图1-2是合成数据集示意图；

图3是关键点检测器网络结构图；

表1是原模型与本技术在合成图像测试集上的mAP指标结果；

图4是原模型与本技术在合成图像测试集上的P-R曲线；

图5是亚像素卷积示意图；

图6是单应变换示意图；

图7是不同单应变换次数的关键点检测结果图；

图8是关键点检测和描述符生成集于一体的网络结构示意图；

图9是HPatches数据集部分展示图；

图10-11是本技术与传统经典SIFT算法在光照变换和视点变换场景下的关键点匹配结果。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明为解决上述技术问题采用以下技术方案：

1)生成简单的几何图形，其角点、交叉点作为关键点标签，形成合成数据集；

2)使用合成数据集训练关键点检测器；

下面对本发明一些步骤进行更详细的解释与描述。

1)生成合成数据集

首先生成简单的几何图形，包含了黑白棋盘、立方体、椭圆、线段、星形、条纹与多边形这8类，在这些图形上使用简单的Y形连接、L形连接、T形连接和线段的端点等具有特征意义的模板建模关键点，从而消除了关键点在语义上的歧义性。每类图形都含有10,000张训练图片、200张验证图片与500张测试图片。虽然合成形状中表示的关键点类型只代表现实世界中所有潜在关键点的一个子集，但是在训练关键点检测器时，最终的性能表现相当好。图1 是合成数据集的一些图形示例。图形的角点、交叉点等位置已用小圆圈标注出来，表示图像关键点位置。图2是一个Y型图形的像素级表示。每个像素点都会有一个二值标签，0表示此像素不是关键点，1表示此像素是关键点。图中可以看到，Y型的端点和交叉点的位置标签为1，代表其为标注的关键点。其他像素点标签为0，表示不是关键点。

2)关键点检测器

图3是网络结构示意图，图中W和H代表图像的宽和高，数字代表卷积核个数。网络结构基础框架选择了Magic Leap公司实现的MagicPoint结构。原始模型初始卷积层采用了64个通道，本技术选择初始卷积通道从16开始增加，图像进行了三次下采样，每下采样一次，宽和高各缩小一倍，卷积通道数增加一倍。网络结构浅层集合了图像的局部特征，深层集合了图像的全局特征，而通道数越多，网络学到的细节越多，所以一般在深层的时候，需要通道数增加来弥补特征图在细节特征上的丢失。而在浅层的时候，实际上不需要过多的卷积通道数。下文给出实验结果证明。

特征图下采样后需要进行上采样恢复原尺寸，上采样采用的是亚像素卷积方式。亚像素卷积是将图片的通道数转换成为图像分辨率的一种方式，通过将原始小分辨率图像的每个通道的数据提取出来按顺序放入高分辨率图像对应的像素点上，从而达到了提高图像分辨率的目的。亚像素卷积没有参数需要学习，因此不会占用太多计算资源。图5是4个通道的亚像素卷积示意图。最终输出图像尺寸与输入图像尺寸一致，每个像素点都会输出一个0～1之间的值，代表这个像素点是关键点的概率。

最终关键点检测问题可以转化为像素点的二分类问题，卷积神经网络在分类和回归问题上的研究已经趋于成熟，更加验证了使用卷积神经网络进行图像关键点检测的可行性。关键点检测的网络结构损失函数原模型使用的是较为常见的交叉熵损失函数。具体公式如下：

其中H,W表示图像的高和宽，y表示像素点的标签，是关键点为1，不是关键点为0，x表示像素点预测是关键点的概率。对于一副图像，按120*160尺寸计算，总共有19200个像素，但标记的关键点只有几十或上百个，也就是说负样本比正样本多了几百倍，训练时将面临严重的样本不平衡问题，网络学习会向负样本倾斜。为了解决这个问题，本技术将原模型使用的交叉熵损失函数更改为focal loss损失函数。具体公式如下：

相比公式(1)，公式(2)多了两个权重系数，α和(1-x)²(公式后半部分对应标签为0的样本损失，系数分别为1-α和x²)。其中，α是平衡正负样本的系数(0～1之间，可根据正负样本比例和实验调整数值)，(1-x)²是平衡易分难分样本的系数。(1-x)²减小了易分类样本的权重，使得网络更关注于困难分类样本。比如，有一个误分类样本，预测概率x较低，系数(1-x)²接近1，损失值不受影响，而当预测概率x较高时(假设接近1)，这是易分类样本，系数(1-x)²接近0，损失值权重下降。

图4中的表1是原模型与本技术实现的两个改进后的mAP指标结果(mAP指标越大越好)。表格第二行是在原模型基础上减少浅层的卷积核个数的结果，mAP指标相比原模型有所提升，说明了在浅层减少卷积核个数不仅没有降低网络性能，反而提升了性能，同时因为减少了卷积核个数，也大大降低了网络参数量，提高了网络计算效率。表格第三行是减少卷积核个数的基础上使用focal loss代替交叉熵损失函数的结果，α取值0.001。相比原模型，性能有大幅提升，说明focal loss在一定程度上解决了正负样本以及易分难分样本不平衡的问题。图4是原模型与最终实现的本技术的Precision-Recall曲线，曲线包围的左下方面积即为mAP值，图中可以看出本改进模型性能明显优于原模型。

3)COCO数据集

MS-COCO数据集是微软出资构建的一个大型图像数据集，其主要任务包含目标检测、语义分割、兴趣点检测等关键任务。MS-COCO数据集总共包含91个类别的图片，其中包含了自然图片以及生活中常见的目标图片，背景比较复杂，目标数量比较多，较为贴近真实状况，是作为神经网络训练集的一个很好的选择。COCO-2014版本训练集包含82,783张图片，验证集包含40,504张图片以及测试集中包含40,775张图片。

合成数据集训练得到的关键点检测器在一些真实图像上忽略了潜在的关键点位置。为了弥补检测器在真实图像上的表现差距，需要对使用合成数据集训练得到关键点检测器预测的真实图像(选用上述COCO数据集)进行多尺度、多变换的自适性单应变换。对输入图像多次进行这样的操作可以帮助关键点检测器从不同的视点和尺度检测到图像更多的潜在关键点，从而更接近真实图像的关键点真值标签。具体过程如下：

x＝f_θ(I) (3)

公式(3)中I是输入图像，x是输出关键点，f_θ(·)是初始的关键点检测器。对输入图像做单应性变换，输出的关键点也随之变换，公式(3)转化为公式(4)：

Hx＝f_θ(H(I)) (4)

其中，H表示单应变换矩阵。再进行单应反变换，如公式(5)所示：

x＝H^-1f_θ(H(I)) (5)

得到源图像I变换后的关键点预测结果。重复以上过程多次，并将所有预测结果融合，最终得到真实图像I的关键点标签。

单应变换矩阵H不是完全随机产生，为了寻找效果良好的能表示真实变化的单应性变换矩阵，将候选矩阵在预先确定的范围内进行采样，该范围内存在平移、缩放、平面内旋转和对称等转换操作。这些转换与图像中心裁剪区域一起使用，以防产生边界失真。如图6所示。

图7是单应变换0、100、1000次关键点预测结果图(图上只显示了300个点)，可以看出，多次单应变换后产生的关键点质量有所提高，更加趋近于角点，且关键点扎堆出现情况缓解并更加均匀分布于全图。综合考虑计算成本和效果体现，单应变换次数设置为100。

4)描述符生成

一张图像的局部描述不仅包含关键点，还包含描述符，本技术中描述符设置为256维的特征向量。如果两张图像中的关键点的描述符足够接近，可认为这两个关键点在两幅图像中表示的是同一实物，可用于后续图像匹配等图像处理。加入描述符生成功能的网络结构输入为两张图像，一张原图，另一张是原图的单应变换图像，已知两张图之间的单应变换矩阵。为了输出整张图像每个像素点的固定长度描述符，网络描述符部分首先生成半密集的描述符(每隔8个像素点生成一个描述符)，半密集描述符的学习减少了训练时消耗的资源，同时使运行更易于处理。然后对描述符进行双三次插值使其覆盖所有像素点，最后使用L2正则化将描述符向量固定在单位长度内。双三次插值是二维空间中最常用的插值方法，其每个位置的值可以通过矩形网格中最近的16个采样点加权平均得到，通常能产生较好的效果。网络的学习目标是使两张图中代表相同实物的关键点描述符相近，代表不同实物的关键点描述符相差较大，因此描述符的损失函数使用铰链损失，具体公式如下：

其中，I₁,I₂表示输入的两幅图像，原图及其单应变换图像，s表示两幅图中的关键点是否是一致(一致表示代表同一实物，可通过已知的单应变换矩阵得到)，一致为1，不一致为0，m_p是关键点一致时的阈值，m_n是关键点不一致的阈值，d^Td'是两个关键点描述符的欧氏距离，此处用欧氏距离衡量描述符向量是否相近。当关键点一致时，损失函数只有公式前半部分，当描述符距离大于关键点一致的阈值时，产生损失，反之同理。

最终网络结合关键点和描述符任务，分为两个分支，一个分支学习关键点检测任务，一个分支学习描述符生成任务。网络总体损失函数由两部分组成：关键点检测损失与特征描述符损失。最终的损失函数公式如下：

L_all＝L_p1+L_p2+λL_d (7)

其中，L_p1，L_p2表示原图和单应变换图像的关键点检测损失，L_d表示的是两幅图之间的描述符对应损失，λ是超参数，由网络学习获得，用于平衡这两类损失。最终网络结构如图8所示。

HPatches标准数据集可用于图像局部特征描述的评估。该数据集主要分为两类场景，一类为视点变化场景，另一类为光照变化场景。两类加起来总共有116个场景，其中属于视点变化的有57个，属于光照变化的有59个。每个场景包含有1张基准图像和5张对应视点变化或光照变化的图像，已知基准图像和其他图像之间的单应变换矩阵。图9为Hpatches数据集的一个示例。图10和图11是本技术与传统算法在HPatches数据集图像中的光照与视点变化场景下的关键点匹配结果。图10分别给出了本技术和传统SIFT算法在两组光照不同图像下的关键点匹配结果，观察每组图像的左右子图，最下方的白色条状物的灰度值不一样，反映了光照不同，每组图像左右子图之间的连接线代表正确匹配的关键点，图中可以看出，本技术实现的正确匹配的关键点数明显多于传统SIFT算法。图11分别给出了本技术和传统SIFT算法在两组视点不同图像下的关键点匹配结果，图中可以看出，本技术与传统SIFT算法在视点变化场景下的匹配效果相当。综合来看，本技术实现的关键点匹配性能优于传统经典SIFT算法。

以上所述的具体实施方式，只是本发明较优选的实施方式的一种，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于CNN的图像局部特征检测与描述方法，其特征在于，该方法利用简单几何图形生成合成数据集作为训练数据集，使用卷积神经网络对图像关键点检测和描述符生成进行端到端的训练。

2.根据权利要求1所述的一种基于CNN的图像局部特征检测与描述方法，其特征在于，所述方法包括：

步骤一，简单几何图形的角点、交叉点作为关键点标签，生成合成数据集；

步骤二，使用合成数据集训练关键点检测检测器，改进原基础网络结构MagicPoint；

步骤三，对真实图像，即COCO数据集进行多次单应变换并用关键点检测器预测关键点，将多次单应变换图像关键点预测结果合并，最终得到真实图像的关键点标签；

步骤四，搭建卷积神经网络结构，使用步骤三得到的真实图像数据集训练关键点检测与描述符生成任务。

3.根据权利要求2所述的一种基于CNN的图像局部特征检测与描述方法，其特征在于，步骤一中的合成数据集生成，详细过程如下：

生成常见的几何图形，包含了黑白棋盘、立方体、椭圆、线段、星形、条纹与多边形这8类，在这些图形上使用简单的Y形连接、L形连接、T形连接和线段的端点等具有特征意义的模板建模关键点，图像每个像素点都有一个二值标签，关键点对应位置的像素点标签设置为1，其余位置的像素点标签设置为0。

4.根据权利要求3所述的一种基于CNN的图像局部特征检测与描述方法，其特征在于，步骤二中所述训练过程，详细过程如下：

在步骤一获得的训练数据集基础上，将图像关键点检测问题转化为图像像素点的二分类问题，通过训练网络预测图像每个像素点是关键点的概率；

使用MagicPoint作为基础网络结构，减少其浅层卷积核个数，损失函数使用focalloss代替原来的交叉熵损失函数。

5.根据权利要求2所述的一种基于CNN的图像局部特征检测与描述方法，其特征在于，步骤三的详细过程如下：

用合成数据集训练得到的关键点检测器预测真实图像潜在关键点时，需要对预测图像进行多次单应变换并进行预测，所有预测结果反变换后进行融合，作为最终真实图像的关键点标签。

6.根据权利要求1所述的一种基于CNN的图像局部特征检测与描述方法，其特征在于，步骤四的详细过程如下：

所述描述符设置为256维的特征向量，结合关键点检测与描述符生成功能的网络结构，输入两张图像，其中一张原图，另一张是原图的单应变换图像，两张图之间的单应变换矩阵已知；网络分为两个分支，一个分支学习关键点检测任务，另一个分支学习描述符生成任务；

关键点分支与步骤二一致，描述符分支为图像中每个像素生成256维的特征描述符；网络描述符部分首先生成半密集的描述符，然后对描述符进行双三次插值使其覆盖所有像素点，最后使用L2正则化将描述符向量固定在单位长度内；

最终的网络损失函数包括两部分：关键点检测损失与特征描述符损失，关键点检测损失采用focal loss，描述符损失采用铰链损失。

7.根据权利要求6所述的一种基于CNN的图像局部特征检测与描述方法，其特征在于，所述半密集的描述符定义为每隔8个像素点生成一个描述符。

8.根据权利要求6所述的一种基于CNN的图像局部特征检测与描述方法，其特征在于，描述符的损失函数使用铰链损失，具体公式如下：

其中，I₁,I₂表示输入的两幅图像，原图及其单应变换图像，s表示两幅图中的关键点是否是一致，一致为1，不一致为0，m_p是关键点一致时的阈值，m_n是关键点不一致的阈值，d^Td'是两个关键点描述符的欧氏距离，用欧氏距离衡量描述符向量是否相近；

当关键点一致时，损失函数只有公式前半部分，当描述符距离大于关键点一致的阈值时，产生损失，反之同理。

9.根据权利要求4所述的一种基于CNN的图像局部特征检测与描述方法，其特征在于，所述focal loss损失函数具体公式如下：

其中H,W表示图像的高和宽，y表示像素点的标签，是关键点为1，不是关键点为0，x表示像素点预测是关键点的概率。