CN112348038A

CN112348038A - 一种基于胶囊网络的视觉定位方法

Info

Publication number: CN112348038A
Application number: CN202011375939.8A
Authority: CN
Inventors: 孙浩; 焦明连; 殷梓峰; 方美丽
Original assignee: Jiangsu Ocean University
Current assignee: Jiangsu Ocean University
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-09

Abstract

一种基于胶囊网络的视觉定位方法，该方法采用密集卷积网络对用户输入的图像进行提取图像深层特征，然后配合胶囊网络对提取的图像深层特征与现有的图像进行匹配，以得到匹配程度最高的一幅图像，进而实现用户定位，提高了图像的特征匹配度，减少了影像中噪声的影响；本发明改善了传统胶囊网络仅采用一层卷积进行空间特征提取，未能很好的提取深层特征，使得模型整体精准度不高的问题，改进的胶囊网络引入了密集卷积网络来提取图像深层特征，使图像特征更具判断力，进而提高图像匹配的准确率。

Description

一种基于胶囊网络的视觉定位方法

技术领域

本发明涉及定位技术领域，特别是一种基于胶囊网络的视觉定位方法。

背景技术

目前，基于SIFT的街景影像特征表达的方法为：

首先，进行尺度空间极值点检测，包括构造高斯差分金字塔的尺度空间，一般利用高斯卷积核实现图像的尺度变化；尺度空间L被定义为一个变化尺度的高斯函数G与原图像I的卷积，定理公式为

L(x，y，σ)＝G(x，y，σ)*I(x，y)；

然后，寻找局部极值点，并进行关键点的确认和关键点的方向指向；

上一步已计算出每个SIFT特征点的主方向，依照特征点所处尺度空间选择对应的图像，计算特征点附近各关键点的梯度方向以及梯度的模，并将新的关键点梯度方向覆盖原来的梯度方向，实现特征描述符的方向不变性；接着，根据这些数据(主方向、坐标、尺度)生成特征描述子，最终，提取出影像的SIFT特征图，与数据库中的影像进行查询匹配来确定位置信息。

但是，由于匹配的影像会包含一些噪声，比如流动的行人、车辆、四季变化的行道树等，这些噪声会造成影像特征的误匹配使得影像在匹配过程中的准确率降低。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种可以解决在城区中的高密度建筑物等遮挡严重的建成区，使得定位卫星的信号受到限制而无法进行定位或者定位精度较差的问题的基于胶囊网络的视觉定位方法。

本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种基于胶囊网络的视觉定位方法，该方法采用密集卷积网络对用户输入的图像进行提取图像深层特征，然后配合胶囊网络对提取的图像深层特征与现有的图像进行匹配，以得到匹配程度最高的一幅图像，进而实现用户定位。

本发明所要解决的技术问题还可以通过以下的技术方案来进一步实现，对于以上所述的基于胶囊网络的视觉定位方法，该方法步骤如下：

(1)获取目标影像数据，并将目标影像数据建立图像数据库；

(2)输入图像；

(3)采用密集卷积网络和胶囊网络配合的方法对用户输入的图像和图像数据库中的目标图像进行全局特征信息的提取；

(4)将用户输入的图像与图像数据库中的目标图像进行匹配并找到匹配程度最高的一幅图像，进而得到用户输入图像所在位置。

本发明所要解决的技术问题还可以通过以下的技术方案来进一步实现，对于以上所述的基于胶囊网络的视觉定位方法，该方法采用建立胶囊网络模型进行图像匹配，胶囊网络模型包括输入层、密集卷积层、主胶囊层、数字胶囊层和输出层，输入层用于输入用户照片；密集卷积层用于使用4个密集卷积模块提取输入图像的高层次特征；主胶囊层用于对图像特征进行进一步提取、整合；数字胶囊层用于计算图像匹配概率；输出层用于输出匹配图像。

本发明所要解决的技术问题还可以通过以下的技术方案来进一步实现，对于以上所述的基于胶囊网络的视觉定位方法，密集卷积网络中每层网络既与下层网络连接，又与后面每一层网络连接即每一层的输入都是前面所有层输出的并集，第1层得到的特征图x₁是前面所有特征图连接之后合并的结果：

x_l＝H_l([x₀，x₁，…，x_l-₁])

式中，[x₀，x₁，...，x_l-1]表示将第0层到1-1层特征图进行合并；H₁为非线性转换函数，其中包含三个操作：批量规范化，修正线性单元和3*3卷积。

本发明所要解决的技术问题还可以通过以下的技术方案来进一步实现，对于以上所述的基于胶囊网络的视觉定位方法，胶囊网络的前后层胶囊之间采用动态路由算法进行更新，在动态路由算法规则中，下层胶囊由上层胶囊计算得出：

每个上层胶囊i连接到下层胶囊j的概率为：

式中，C_ij为耦合系数，是下层胶囊i激活上层胶囊j的概率；b_ij是胶囊i连接到胶囊j的先验概率，初始值设置为0；

根据耦合系数C_ij计算加权求和得输入向量s_j：

式中：ui为上层胶囊的输出，

为上层胶囊预测向量，W_ij为相邻两层的权值转化矩阵，s_j为输入向量；

使用判别式学习实现非线性压缩，并通过其实现胶囊层级的激活功能；输出向量vj表示为：

式中：v_j为输出向量，s_j为输入向量；

在路由更新环节中通过输出向量v_j与上层胶囊预测向量

相乘进行更新b_ij，b_ij的更新计算公式如下：

式中，b_ij为是胶囊i连接到胶囊j的先验概率，

为上层胶囊预测向量，v_j为输出向量。

与现有技术相比，本发明采用密集卷积网络对用户输入的图像进行提取图像深层特征，然后配合胶囊网络对提取的图像深层特征与现有的图像进行匹配，以得到匹配程度最高的一幅图像，进而实现用户定位，提高了图像的特征匹配度，减少了影像中噪声的影响；本发明改善了传统胶囊网络仅采用一层卷积进行空间特征提取，未能很好的提取深层特征，使得模型整体精准度不高的问题，改进的胶囊网络引入了密集卷积网络来提取图像深层特征，使图像特征更具判断力，进而提高图像匹配的准确率。

附图说明

图1为本发明胶囊网络模型的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，一种基于胶囊网络的视觉定位方法，该方法采用密集卷积网络对用户输入的图像进行提取图像深层特征，然后配合胶囊网络对提取的图像深层特征与现有的图像进行匹配，以得到匹配程度最高的一幅图像，进而实现用户定位；

该方法步骤如下：

(1)获取目标影像数据，并将目标影像数据建立图像数据库，其中每张影像数据包括图片名称、经纬度、俯仰角等元数据；

(2)输入图像，即用户的照片；

该方法采用建立胶囊网络模型进行图像匹配，胶囊网络模型包括输入层、密集卷积层、主胶囊层、数字胶囊层和输出层，输入层用于输入用户照片；密集卷积层用于使用4个密集卷积模块提取输入图像的高层次特征；主胶囊层用于对图像特征进行进一步提取、整合；数字胶囊层用于计算图像匹配概率；输出层用于输出匹配图像。

密集卷积网络的核心部分是密集卷积模块，密集卷积模块中每层网络既与下层网络连接，又与后面每一层网络连接即每一层的输入都是前面所有层输出的并集；在密集卷积网络中如果网络有L层，那么有L*(L+1)/2个连接；密集卷积网络中，第1层得到的特征图x₁是前面所有特征图连接之后合并的结果：

x_l＝H_l([x₀，x₁，…，x_l-1])

式中，[x₀，x₁，...，x_l-1]表示将第0层到1-1层特征图进行合并；H_l为非线性转换函数，其中包含三个操作：批量规范化，修正线性单元和3*3卷积；

密集卷积网络通常包含多个密集卷积模块，密集卷积网络在保证网络中层与层之间最大程度的信息传输的前提下，选择将所有层连接起来，充分利用特征图信息，提高网络训练效果，同时缓解因为网络深度及宽度的增加带来的过拟合问题。

胶囊网络的前后层胶囊之间采用动态路由算法进行更新，提高模型分类效率，使模型能够快速平稳的收敛，在动态路由算法规则中，下层胶囊由上层胶囊计算得出：

每个上层胶囊i连接到下层胶囊j的概率为：

根据耦合系数C_ij计算加权求和得输入向量s_j：

式中：u_i为上层胶囊的输出，

使用判别式学习实现非线性压缩，并通过其实现胶囊层级的激活功能；输出向量v_j表示为：

式中：v_j为输出向量，s_j为输入向量；

胶囊的输出向量的长度表征实体出现的概率，所以使用非线性压缩函数将向量的模长限定在0到1之间；非线性压缩函数可确保短向量的长度能够缩短到几乎为0，而长向量的长度压缩到1的左领域内，输出向量越长，代表图像属于该类概率越大；

在路由更新环节中通过输出向量v_j与上层胶囊预测向量

相乘进行更新b_ij，b_ij的更新计算公式如下：

式中，b_ij为是胶囊i连接到胶囊j的先验概率，

为上层胶囊预测向量，v_j为输出向量。

Claims

1.一种基于胶囊网络的视觉定位方法，其特征在于：该方法采用密集卷积网络对用户输入的图像进行提取图像深层特征，然后配合胶囊网络对提取的图像深层特征与现有的图像进行匹配，以得到匹配程度最高的一幅图像，进而实现用户定位。

2.根据权利要求1所述的基于胶囊网络的视觉定位方法，其特征在于：该方法步骤如下：

(1)获取目标影像数据，并将目标影像数据建立图像数据库；

(2)输入图像；

3.根据权利要求1或2所述的基于胶囊网络的视觉定位方法，其特征在于：该方法采用建立胶囊网络模型进行图像匹配，胶囊网络模型包括输入层、密集卷积层、主胶囊层、数字胶囊层和输出层，输入层用于输入用户照片；密集卷积层用于使用4个密集卷积模块提取输入图像的高层次特征；主胶囊层用于对图像特征进行进一步提取、整合；数字胶囊层用于计算图像匹配概率；输出层用于输出匹配图像。

4.根据权利要求1所述的基于胶囊网络的视觉定位方法，其特征在于：密集卷积网络中每层网络既与下层网络连接，又与后面每一层网络连接即每一层的输入都是前面所有层输出的并集，第1层得到的特征图x₁是前面所有特征图连接之后合并的结果：

x_l＝H_l([x₀，x₁，...，x_l-1])

式中，[x₀，x₁，...，x_l-1]表示将第0层到l-1层特征图进行合并；H₁为非线性转换函数，其中包含三个操作：批量规范化，修正线性单元和3*3卷积。

5.根据权利要求2所述的基于胶囊网络的视觉定位方法，其特征在于：胶囊网络的前后层胶囊之间采用动态路由算法进行更新，在动态路由算法规则中，下层胶囊由上层胶囊计算得出：

每个上层胶囊i连接到下层胶囊j的概率为：