CN108564120B

CN108564120B - 基于深度神经网络的特征点提取方法

Info

Publication number: CN108564120B
Application number: CN201810299459.4A
Authority: CN
Inventors: 高成英; 张泽昕
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2022-06-14
Anticipated expiration: 2038-04-04
Also published as: CN108564120A

Abstract

本发明公开了一种基于深度神经网络的特征点提取方法，包括：数据生成，利用OpenCV随机生成不同基础图形，同时对于有角点的图形记录角点的位置作为后续训练的标签；训练深度神经网络，利用数据生成的训练集训练网络模型，来检测角点的产生；测试，利用深度神经网络训练好的模型，对OpenCV生成的数据集和互联网上下载到的真实数据集进行测试，评估该算法的性能表现。本发明减少了深度学习标注特征点数据集的难度，同时用良好的深度神经网络结构提高了提取的稳定性。

Description

基于深度神经网络的特征点提取方法

技术领域

本发明涉及一种基于深度神经网络的特征点提取方法。

背景技术

随着技术的发展和科技的进步，计算机视觉算法在人类的日常生活中起到的作用越来越大。而特征点提取，作为计算机视觉研究中的基础模块，被应用到很多视觉相关的算法中，比如特征匹配、图片相似度检测、三维重建、视觉里程计、目标跟踪等等。现有的特征点方法大多是一些人工特征，在理想情况下表现良好，但是在噪声、模糊等情况下鲁棒性则没那么高，受影响较大。

而随着移动设备的普及，越来越多的照片来源于移动设备的摄像头，同样，计算机视觉算法的应用，也越来越需要考虑在移动端上的性能和表现情况。移动设备采用的一般是卷帘相机，这会导致在运动的时候拍摄的照片会产生一定的运动模糊。同时由于感光芯片面积小，在光照强度不够的环境下拍摄，更容易产生大量噪声。这时候传统的特征提取算法容易受到这些情况的干扰，导致提取特征点准确性下降，继而影响后续算法的准确性。

近年来，深度学习在计算机视觉方面取得显著的成果，包括不限于图片分类、实例分割、视觉定位、目标跟踪等。而利用深度学习提取特征点的方法较少，原因是：特征点没有明确定义导致真实图片标注特征点困难。所以与分类、跟踪、实例分割这些不同，深度学习没办法直接应用在特征点提取上。现有的特征点提取方法，根据每种方法定义的特征点不同而不同，比如fast定义周围连续一定个数的像素值和中心点相差大于一个阙值就是特征点，而sift则需要对输入图片生成尺度空间，并且在尺度空间上寻找像素点极值。但是总体来讲流程比较简单，就是输入图片，然后预处理，按照定义提取特征，非极大值抑制，得到最后的特征点。

发明内容

本发明的首要目的是提供一种基于深度神经网络的特征点提取方法，以提高移动设备特征提取的稳定性。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于深度神经网络的特征点提取方法，包括以下步骤：

数据生成，利用OpenCV随机生成不同基础图形，同时对于有角点的图形记录角点的位置作为后续训练的标签；

训练深度神经网络，利用数据生成的训练集训练网络模型，来检测角点的产生；

测试，利用深度神经网络训练好的模型，对OpenCV生成的数据集和互联网上下载到的真实数据集进行测试，评估该算法的性能表现。

优选的，所述数据生成包括以下步骤：

尺度规定，限制基础图形生成的边界，以此来实现多尺度的图形生成，然后在尺度规定的基础上，生成不同尺度和不同形状的基础图形；

利用随机噪声加平滑滤波生成不包含信息的背景；

利用生成的基础图形和背景合成，生成合成图；

分别给合成图添加模糊和添加噪声，最后对于每张合成图得到一组三张图片，分别是合成图即原图、模糊图和噪声图。

优选的，所述训练深度神经网络步骤中，利用数据生成提供的图片数据集和对应标签，放入网络中进行训练，直到收敛；同时通过提取后的不同通道信息把降低分辨率的图片还原成原图分辨率的特征点概率图，以此来达到特征点提取的功能。

优选的，所述训练深度神经网络步骤中，采用基于ResNet的网络结构来进行特征的提取。

优选的，所述测试步骤中，首先经过深度神经网络，得到提取特征图，其中最后一个通道代表该图片块没有特征点的概率，其他通道代表对应像素是特征点的概率，选取概率最高的作为图片块提取特征点的结果，同时将对应概率置为1，然后删除掉没有特征点的通道信息，最后再还原成原图尺寸的特征点概率图，概率为1的像素对应原图同样位置存在特征点。

本发明提供的基于深度神经网络的特征点提取方法通过深度神经网络训练，对比传统方法在模糊和噪声这样的极端情况下有了更好的稳定性，同时对于尺度、旋转和图形的灰度值的特征点稳定性也有提升。本发明提供的方法减少了深度学习标注特征点数据集的难度，同时用良好的深度神经网络结构提高了提取的稳定性。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例系统模块图示意图；

图2为本发明实施例数据生成模块流程图；

图3为本发明实施例生成的合成图、模糊图和噪声图；

图4为本发明实施例深度神经网络结构图；

图5为本发明实施例Residual Block结构；

图6为本发明实施例Convolution Layer结构；

图7为本发明实施例特征点提取流程图；

图8为本发明实施例多图形结果；

图9为本发明实施例抗模糊噪声结果

图10为本发明实施例真实图片结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

系统由数据生成模块，深度神经网络模块和测试模块三个模块构成，总体框架如图1所示。首先在测试生成模块，即通过生成数据集，解决了特征提取的标注问题。利用OpenCV生成多种基础图形，如三角形、四边形、椭圆、直线等等，同时对于存在角点的图形标注角点所在的位置。然后是训练模块，搭建基于ResNet的深度卷积神经网络，利用OpenCV生成的图片作为输入，角点概率图作为期望输出，训练模型，希望训练神经网络使得他对基础图形的角点做出相应。输出的是一个同图片大小的概率图，对应每个像素是角点的概率。最后是测试模块，测试模块用于评估，评估两种图片：一种是同样由OpenCV生成的不同于训练集的测试集，第二种是真实图片，挑选计算机视觉的图片公开数据集，主要包括建筑、风景、旅游、城市等等日常见的场景。计算特征点提取的定位误差以及识别率等评价指标。

数据生成模块主要负责解决对一般图片标注特征点非常困难的原因，利用OpenCV随机生成不同基础图形，同时对于有角点的图形记录角点的位置作为后续训练的标签。

该模块主要分成四个部分：尺度规定、生成基础图形、添加背景以及添加模糊和噪声结果。四部分的功能简要介绍如下：(1)首先是尺度规定，这部分用于生成不同大小的基础图形，在生成基础图形前起限制边界的作用。尺度不变性是特征点提取算法的一个良好特性，所以在训练集的生成中也需要生成不同尺度的基础图形，使得训练集能覆盖图形尺度的变化。(2)其次是基础图形的生成，数据集主要选择了四种基础图形，分别是：三角形、四边形、椭圆和线段，其中三角形和四边形的边的交点认为是角点，椭圆认为没有角点的，线段认为两个端点是角点。在这部分需要确定图形的颜色和坐标的位置，其中颜色采用随机值是为了应对不同颜色的物体，即主要是训练模型认识图形而对图形的颜色不敏感；坐标的位置主要针对三角形和四边形，直接随机生成三个点或者四个点不一定能组成三角形和四边形，所以对于四边形来说，分别对左上、右上、左下、右下四个块范围内生成随机值，然后在判断是否符合构成四边形的条件，以此来生成四边形，而三角形则在四边形的基础上随机选取三个点即可。(3)然后是添加背景，考虑到最后应用在真实场景中，而真实场景的背景往往是杂乱无章的而不是一片相同颜色，所以在数据集生成的时候，加入了随机背景。真实场景中的背景信息往往是没规律的、没角点信息的非图形，相当于是随机噪声，而随机噪声又显得太尖锐不够平滑，所以背景图的生成采取随机噪声加平滑滤波器这样的组合，得到最后的随机背景(4)最后是添加模糊和噪声，即本专利的主要目的，为了提取更加抗噪声、模糊的特征点，所以为了让神经网络能在一定模糊和一定噪声的情况下仍能正确识别，对于生成的基础图形，都会添加噪声和模糊，即每一张基础图形图片生成一组三张的图片，分别包含：原图、模糊图和噪声图，其中为了增加鲁棒性，噪声和模糊的程度采取了随机值。

数据生成模块四部分：尺度规定、生成基础图形、添加背景以及添加模糊和噪声，之间的工作流程如图2所示。首先是尺度规定，它的功能是限制基础图形生成的边界，以此来实现多尺度的图形生成；然后在尺度规定的基础上，生成不同尺度和不同形状的基础图形；同时添加背景部分利用随机噪声加平滑滤波生成不包含信息的背景；接下来利用生成的基础图形和背景合成，生成合成图；最后是分别给合成图添加模糊和添加噪声，最后对于每张合成图得到一组三张图片，分别是合成图即原图、模糊图和噪声图，如图3所示。

深度神经网络模块主要负责训练深度神经网络，利用数据生成模块产生的训练集，训练网络模型，来检测角点的产生。

为了提取能够更加稳定、抗噪声、抗模糊的特征点，不能像传统特征点一样利用局部的特征，采用深度神经网络能够提取高层的语义特征，语义特征具有更好的稳定性。该模块需要利用数据生成模块提供的图片数据集和对应标签，放入网络中进行训练，直到收敛。同时因为深度神经网络提取特征后会降低图片的分辨率，本专利通过提取后的不同通道信息把降低分辨率的图片还原成原图分辨率的特征点概率图，以此来达到特征点提取的功能。

为了能够让神经网络拥有更广的感受视野，同时又不会因为网络过深而变得很难训练，本专利采用基于ResNet的网络结构来进行特征的提取，具体的网络结构如图4所示。

其中Residual Block和Convolution Layer包含不仅一层，这两个块的具体结构如图5、图6所示。Residual Block有两个参数，一个是layer即层数，另一个是通道数，按图5所示，Residual Block的一层指的是一个Residual Layer，其中每一个Residual Layer自底向上依次是Convolution层、Batch Norm层、ReLu层、Convolution层和Batch Norm层。这里对于Residual Block的第一个Residual Layer的第一个Convolution层的stride＝2，即在这里对图片产生了降低一半分辨率。Convolution Layer有三个参数，比如图6所示，7x7代表卷积核大小、stride＝2代表卷积的步幅是2，64代表提取64通道的特征；包含三层，分别是Convolution层、Batch Norm层和ReLu层。

测试模块利用深度神经网络模块训练好的模型，对OpenCV生成的数据集和互联网上下载到的真实数据集进行测试，评估该算法的性能表现。

测试模块首先需要利用深度神经网络得到特征点的分布图，流程如图7所示。首先经过深度神经网络，得到提取特征图。其中最后一个通道代表该图片块没有特征点的概率，其他通道代表对应像素是特征点的概率，选取概率最高的作为图片块提取特征点的结果，同时将对应概率置为1。然后删除掉没有特征点的通道信息，最后再还原成原图尺寸的特征点概率图，概率为1的像素对应原图同样位置存在特征点。

对OpenCV生成的测试集，多图形测试的结果如图8所示，左上角是正方形，右上角是，左下角是线段，右下角是椭圆，可以看到对于带角的图形或者线段的端点都能准确识别出特征点，对于有弧度的图形认为是没有特征点的。模糊、噪声的测试如图9所示，图9展示的一组三张，即原图、模糊图、噪声图的测试图片结果，可以看到在多尺度、模糊、噪声下，能准确识别出。

对于真实图片的测试集，如图10所示，从左到右分别是原图、模糊图、噪声图。模糊图和噪点图的结果对比原图，基本不会发生太大的变动，大部分原图的特征点在模糊图、噪声图对应位置能提取出来。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度神经网络的特征点提取方法，其特征在于包括以下步骤：

其中，所述数据生成包括以下步骤：

利用随机噪声加平滑滤波生成不包含信息的背景；

利用生成的基础图形和背景合成，生成合成图；

分别给合成图添加模糊和添加噪声，最后对于每张合成图得到一组三张图片，分别是合成图即原图、模糊图和噪声图；

另外，数据生成所选用的数据集主要选择四种基础图形，分别是：三角形、四边形、椭圆和线段；

训练深度神经网络，利用所述不同基础图形和标签作为训练集训练网络模型，来检测角点的产生；

其中，所述训练深度神经网络步骤中，利用数据生成提供的图片数据集和对应标签，放入网络中进行训练，直到收敛；同时通过提取后的不同通道信息把降低分辨率的图片还原成原图分辨率的特征点概率图，以此来达到特征点提取的功能；

所述训练深度神经网络步骤中，采用基于ResNet的网络结构来进行特征的提取；

测试，利用深度神经网络训练好的模型，对OpenCV生成的数据集和互联网上下载到的真实数据集进行测试，评估特征点提取方法的性能表现。