CN112163111A

CN112163111A - 一种旋转不变的语义信息挖掘方法

Info

Publication number: CN112163111A
Application number: CN202011040727.4A
Authority: CN
Inventors: 颜成钢; 王廷宇; 万斌; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-01
Anticipated expiration: 2040-09-28
Also published as: CN112163111B

Abstract

本发明提供一种旋转不变的图像语义信息挖掘方法，首先构建特征生成网络，通过ResNet‑50网络特征图谱的提取；通过主分支特征处理网络对特征图谱进行平均池化和降维处理；通过副分支特征处理网络挖掘旋转不变的图像语义描述符。将主分支特征处理网络得到的一个n维特征与副分支特征处理网络得到的多个n维特征进行特征拼接，得到增强的图像特征描述符。最后利用增强的特征描述符进行不同视角下图像的检索，进而实现地理目标定位。本发明提出一种环形分割策略，使得到的语义块不会受到拍摄方向的干扰，挖掘得到的语义块可以提高图像特征的区分性。

Description

一种旋转不变的语义信息挖掘方法

技术领域

本发明涉及图像检索领域，尤其涉及一种旋转不变的图像语义信息挖掘方法。

背景技术

图像检索任务长期以来一直是计算机视觉领域的重要研究课题，其目的是能够在存储量巨大的图像数据库中快速寻找出满足条件图像。图像检索根据应用领域不同，可细分为不同的子任务，如：行人重识别，车辆重识别，交叉视角地理定位等。本发明主要应用于交叉视角地理定位任务中。

交叉视角地理定位旨在检索出来自不同视角的两张具有相同语义信息的图像。在无人机精准递送，机器人导航，事件检测等场景中，交叉视角地理定位已经得到了广泛的应用。以无人机递送为例，给定一张带有GPS位置信息的卫星图像，无人机首先可根据GPS导航定位到目标建筑物附近。但由于GPS存在位置漂移现象，造成无人机(尤其是在建筑物较多的地区)无法实现目标的精准定位。此时，交叉视角地理定位系统便可根据无人机视角拍摄的图像与卫星视角获得的图像进行语义匹配，辅助GPS实现精准的物品递送。

在交叉视角地理定位任务中，为了得到表征性更好的图像特征信息，卷积神经网络已代替传统算法得到广泛应用。图像语义信息的挖掘，也从图像层面转换到高阶特征层面，即在图像的特征图谱上挖掘图像语义信息。有效的挖掘和利用图像特征中的语义信息，有利于提高不同视角下图像检索的精度。输入图像与待检索的图像之间可能存在虽然包含的语义信息相同，但方向不对齐的现象，例如，一张卫星图的右上角有一辆车，但在无人机视角下，这辆车可能在右下角。如果同时挖掘并利用图像特征右上角的语义信息对整体特征进行特征增强，不仅不会增加整体特征的区分性，反而会引入干扰特征。所以设计一种方向无关的特征语义挖掘方法对提高交叉视角下的地理定位精度尤为重要。

发明内容

针对现有技术中存在的不足，本发明提供一种旋转不变的图像语义信息挖掘方法。该方法主要利用在交叉视角地理定位任务中。在给定的两个视角图像方向不对齐的情况下，该方法利用一种环形切割策略对图像特征进行切割，得到与方向无关的语义信息块。而后利用语义块对整体信息进行特征增强，实现更精准的交叉视角地理定位。

一种旋转不变的图像语义信息挖掘方法，包括以下步骤：

步骤1：构建特征生成网络。该网络由三部分组成：第一部分为ResNet-50网络，用于特征图谱的提取；第二部分为主分支特征处理网络，对特征图谱进行平均池化和降维处理；第三部分为副分支特征处理网络，该部分采用环形分割策略，挖掘旋转不变的图像语义描述符。第一部分采用的ResNet-50网络与原ResNet-50相比，去掉了最后的平均池化层和全连接层。

步骤2：通过ResNet-50骨干网络对测试图像进行特征提取，获得特征图谱，并通过主分支特征处理网络和副分支特征处理网络对提取的特征图谱分别进行处理。在主分支特征处理网络中，直接对特征图谱进行全局平均池化操作，得到一个n维特征。在副分支特征处理网络中，先对特征进行环形切割，而后对切割得到的每个特征块进行平均池化操作，得到多个n维特征。

步骤3：将主分支特征处理网络得到的一个n维特征与副分支特征处理网络得到的多个n维特征进行特征拼接，得到增强的图像特征描述符。

步骤4：利用增强的特征描述符进行不同视角下图像的检索，进而实现地理目标定位。

进一步的，所述的环形切割遵循不相交原则，即保证切割得到的每一块之间没有信息重叠。切割过程中，首先得到特征图谱的长和宽(H*W)，而后根据要切割的块数n计算每一块长和宽的大小。

每个信息块的长度计算：

(1)计算信息块长度增量Δh＝floor(H/(2*n)),

如果n过大，导致Δh＝0，则利用双线性插值算法增大特征图谱，保证Δh≥1。

(2)计算第1到第n-1个信息块的长度h，计算公式如下：

h＝2*i*Δh，

其中i表示1到n-1中，第i个信息块。

(3)得到第n个信息块的长，其值为原特征图谱的长度H。

每个信息块的宽度计算与长度方法相同，第n个信息块的宽的值为原特征图谱的长度W。

本发明有益效果如下：

交叉视角地理定位任务中取景自不同平台的图像可能存在方向不对齐的问题。在定位系统按照方位对图像信息进行挖掘时，可能出现获取语义信息不一致的情况。本方法提出一种环形分割策略，使得到的语义块不会受到拍摄方向的干扰。挖掘得到的语义块可以提高图像特征的区分性，

附图说明

图1是环形分割策略示意图；

图2是本发明方法流程图。

具体实施方式

下面根据附图详细说明本发明，本发明的目的和效果将变得更加明显。

本发明利用环形分割策略(图1所示)，挖掘旋转不变的图像语义信息，进而增强图像特征描述符的区分性，提高交叉视角地理图像检索的准确性。其整体流程图如图2所示，具体步骤如下：

步骤2：将大小为256*256的图像输入到ResNet-50卷积神经网络，得到尺寸为16*16*2048的特征图谱。在主分支特征处理网络中，对特征图谱进行平均池化操作，得到大小为1*1*2048的整体图像特征表示。在副分支特征处理网络中，对特征图谱进行环形切割，得到大小为4*4*2048、8*8*2048、16*16*2048的三个特征块。环形切割依据到特征中心的距离对图像进行分块处理，切割得到的每一块中都包含离中心某一距离范围内的所有方向的信息，故不论不同视角的图像以哪个方向拍摄，相同目标图像分割得到的对应的环形语义块内都会包含相同的语义信息。在得到特征块后，同样利用平均池化操作对特征块进行处理，得到3个大小为1*1*2048的块语义特征表示。

步骤3：首先将主分支特征处理网络和副分支特征处理网络得到的总体图像特征表示和图像块语义特征表示进行降维处理，得到4个大小为1*1*512的特征表示，而后将四个特征进行拼接，得到大小为1*1*2048的增强后的图片特征。

步骤4：利用增强的图像特征描述符进行交叉视角地理定位的检索。

Claims

1.一种旋转不变的图像语义信息挖掘方法，其特征在于，包括以下步骤：

步骤1：构建特征生成网络；该网络由三部分组成：第一部分为ResNet-50网络，用于特征图谱的提取；第二部分为主分支特征处理网络，对特征图谱进行平均池化和降维处理；第三部分为副分支特征处理网络，该部分采用环形分割策略，挖掘旋转不变的图像语义描述符；第一部分采用的ResNet-50网络与原ResNet-50相比，去掉了最后的平均池化层和全连接层；

步骤2：通过ResNet-50骨干网络对测试图像进行特征提取，获得特征图谱，并通过主分支特征处理网络和副分支特征处理网络对提取的特征图谱分别进行处理；在主分支特征处理网络中，直接对特征图谱进行全局平均池化操作，得到一个n维特征；在副分支特征处理网络中，先对特征进行环形切割，而后对切割得到的每个特征块进行平均池化操作，得到多个n维特征；

步骤3：将主分支特征处理网络得到的一个n维特征与副分支特征处理网络得到的多个n维特征进行特征拼接，得到增强的图像特征描述符；

2.根据权利要求1所述的一种旋转不变的图像语义信息挖掘方法，其特征在于，所述的环形切割遵循不相交原则，即保证切割得到的每一块之间没有信息重叠；切割过程中，首先得到特征图谱的长和宽(H*W)，而后根据要切割的块数n计算每一块长和宽的大小；

每个信息块的长度计算：

(1)计算信息块长度增量Δh＝floor(H/(2*n)),

如果n过大，导致Δh＝0，则利用双线性插值算法增大特征图谱，保证Δh≥1；

(2)计算第1到第n-1个信息块的长度h，计算公式如下：

h＝2*i*Δh，

其中i表示1到n-1中，第i个信息块；

(3)得到第n个信息块的长，其值为原特征图谱的长度H；