CN109948666A

CN109948666A - 图像相似性识别方法、装置、设备及存储介质

Info

Publication number: CN109948666A
Application number: CN201910155012.4A
Authority: CN
Inventors: 杜翠凤
Original assignee: Guangzhou Jay Communications Planning And Design Institute Co Ltd; GCI Science and Technology Co Ltd
Current assignee: Guangzhou Jay Communications Planning And Design Institute Co Ltd; GCI Science and Technology Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2019-06-28

Abstract

本发明公开了一种图像相似性识别方法、装置、设备及存储介质，该方法通过预设的空间金字塔池化模型将待处理图像转换为预设尺寸的特征图，使得将尺寸大小不一致的待处理图像转换为固定尺寸大小的特征图；将空间金字塔池化模型输出的特征图输送至分布式空洞卷积网络中，通过预设的分布式空洞卷积网络实现对特征图中进行特征提取，获取固定维度的待处理图像的全局特征；对全局特征进行聚类，获得待处理图像的特征向量；根据待处理图像的特征向量和第一图像集合中各图像对应的特征向量，计算待处理图像与第一图像集合中各图像的相似度；本发明能够有效降低图像特征的计算量，提高相似图像的检索速度。

Description

图像相似性识别方法、装置、设备及存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种图像相似性识别方法、装置、设备及存储介质。

背景技术

SLAM建图是人机智能中非常重要的技术，其基本原理是：机器人去到一个陌生的区域，然后不断通过走动，来对自身进行定位和构建3维地图，为了保证构图的准确性，机器人需要进行回路检测，也就是在走动的过程中重新回头看一下之前看过的景物，以矫正之前的定位。回路检测实际上就是快速检测图像的相似性问题。传统做法是将地点识别问题看作实例检索任务，使用具有局部不变性的特征(SIFT)来表示每一个图像，然后将特征聚合成一个向量表示。但是，由于定位预测过程中，很可能需要多个机器人进行协同定位，而且每个机器人输出的图片的尺寸不一样，那么存在多尺度图片需要处理多尺度的图片，计算复杂，检索相似图像的速度慢。

发明内容

针对上述问题，本发明的目的在于提供一种图像相似性识别方法、装置、设备及存储介质，其能够有效降低图像特征的计算量，提高相似图像的检索速度。

第一方面，本发明实施例提供了一种图像相似性识别方法，其特征在于，包括：

通过预设的空间金字塔池化模型将待处理图像转换为预设尺寸的特征图；

通过预设的分布式空洞卷积网络对所述特征图进行特征提取，获取所述待处理图像的全局特征；

对所述全局特征进行聚类，获得所述待处理图像的特征向量；

根据所述待处理图像的特征向量和第一图像集合中各图像对应的特征向量，计算所述待处理图像与所述第一图像集合中各图像的相似度。

优选地，所述通过预设的分布式空洞卷积网络对所述特征图进行特征提取，获取所述待处理图像的全局特征，具体包括：

将所述特征图作为预设的分布式空洞卷积网络的输入值，通过所述预设的分布式空洞卷积网络以不同的空洞卷积核进行分布式卷积处理，获得固定维度的全局特征。

优选地，所述对所述全局特征进行聚类，获得所述待处理图像的特征向量，具体包括：

对所述全局特征进行k聚类，获得k个聚类中心；

计算所述聚类中心与所述特征图的残差和，并遍历所述聚类中心，获得所述待处理图像的特征向量。

优选地，所述计算所述聚类中心与所述特征图的残差和，并遍历所述聚类中心，获得所述待处理图像的特征向量之后，还包括：

对所述待处理图像的特征向量进行L2归一化处理；

通过预设的BP神经网络优化算法对归一化后的特征向量进行优化。

优选地，所述根据所述待处理图像的特征向量和第一图像集合中各图像对应的特征向量，计算所述待处理图像与所述第一图像集合中各图像的相似度，具体包括：

根据优化后的特征向量和第一图像集合中各图像对应的特征向量，采用余弦相似性算法计算所述待处理图像与所述第一图像集合中各图像的相似度。

优选地，所述方法还包括：

获取若干台移动设备在初始定位检测时拍摄的图像，得到第一图像集合，其中，所述第一图像集合包括若干张不同尺寸的图像。

优选地，所述方法还包括：

获取若干台移动设备在回路检测时拍摄的图像，得到第二图像集合，其中，所述第二图像集合包括若干张不同尺寸的图像；

获取所述第二图像集合中的任意一张图像作为待处理图像。

第二方面，本发明实施例提供了一种图像相似性识别装置，包括：

空间金字塔池化模块，用于通过预设的空间金字塔池化模型将待处理图像转换为预设尺寸的特征图；

分布式空洞卷积模块，用于通过预设的分布式空洞卷积网络对所述特征图进行特征提取，获取所述待处理图像的全局特征；

聚类模块，用于对所述全局特征进行聚类，获得所述待处理图像的特征向量；

相似度计算模块，用于根据所述待处理图像的特征向量和第一图像集合中各图像对应的特征向量，计算所述待处理图像与所述第一图像集合中各图像的相似度。

第三方面，本发明实施例提供了一种图像相似性识别设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的图像相似性识别方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面所述的图像相似性识别方法。

相对于现有技术，本发明实施例的有益效果在于：

通过预设的空间金字塔池化模型将待处理图像转换为预设尺寸的特征图，使得将尺寸大小不一致的待处理图像转换为固定尺寸大小的特征图；之后将空间金字塔池化模型输出的特征图输送至分布式空洞卷积网络中，采用不同的空洞卷积核对不同尺寸的特征图进行分布式并行计算，通过预设的分布式空洞卷积网络实现对所述特征图中进行特征提取，获取固定维度的所述待处理图像的全局特征；对所述全局特征进行聚类，获得所述待处理图像的特征向量；根据所述待处理图像的特征向量和第一图像集合中各图像对应的特征向量，计算所述待处理图像与所述第一图像集合中各图像的相似度，采用VLAD优化待处理图像的全局特征后再进行相似度计算，本发明实施例能够有效降低图像特征的计算量，提高相似图像的检索速度。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的图像相似性识别方法的流程示意图；

图2是本发明第一实施例提供的分布式空洞卷积的流程示意图；

图3是本发明第二实施例提供的图像相似性识别装置的示意框图；

图4是本发明第三实施例提供的图像相似性识别设备的示意框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，本发明第一实施例提供了一种图像相似性识别方法，该方法由图像相似性识别设备执行，具体包括以下步骤：

S11：通过预设的空间金字塔池化模型将待处理图像转换为预设尺寸的特征图。

进一步地，所述方法还包括：

获取所述第二图像集合中的任意一张图像作为待处理图像。

在本发明实施例中，所述移动设备可以是具有拍摄功能的机器人或其他智能定位终端。通过同时启用若干台移动设备的移动实现在一陌生空间区域的定位和构建3维地图，并以初始定位检测时若干台移动设备拍摄的图像为第一图像集合，并以回路检测时拍摄的图像若干台移动设备拍摄的图像为对象检索与第一图像集合中图像的相似度，当两张图像的相似度达到预设阈值，例如90％可以认为移动设备在这两张图像对应的区域定位是准确的。但是由于不同的移动设备具有不同的拍摄像素，拍摄所得的待处理图像尺寸大小各不一致，在本发明实施例中，设置与移动设备一一对应空间金字塔池化模型，将不同移动设备拍摄的待处理图像分别输送至不同的空间金字塔池化模型的输入层进行空间金字塔池化，以将不同尺寸的待处理图像转换为固定尺寸大小的特征图。

需要说明的是，本发明实施例对特征图的尺寸大小不做具体的限定，可根据实际需要设定，具体可以通过设置模型不同维数的输出、增加金字塔的层数、或者改变划分网格的大小改变特征图的尺寸。例如空间金字塔池化模型的输出层具有21个神经元，以对输入的待处理图像提取21个特征，具体的空间金字塔池化的过程如下：

(1)将所述待处理图像均分成16个图块；

(2)将所述待处理图像均分成4个图块；

(3)以所述待处理图像为1个图块；

(4)分别计算上述21个图块中的最大值，得到一个输出神经元，从而得到一个固定大小的21维特征图。

本发明实施例采用空间金字塔池化的方法，能够处理不同大小的图像，例如对于一些在不同角度拍摄以及多机器人系统建图，需要对不同大小的图像进行融合，本发明实施例能够对不同来源的图片进行快速的处理，提升多协同机器人进行SLAM建图的速度。

S12：通过预设的分布式空洞卷积网络对所述特征图进行特征提取，获取所述待处理图像的全局特征。

如图2所示，在本发明实施例中，所述预设的空间金字塔池化模型的输出层与所述预设的分布式空洞卷积网络的卷积层连接，空间金字塔池化后得到的特征图送至所述预设的分布式空洞卷积网络的卷积层采用不同的空洞卷积核进行并行卷积、池化、卷积，以获取待处理图像的全局特征。不同的空间金字塔池化模型之后采用分布式空洞卷积网络的分布式卷积层从不同的角度来提取语义和细节层面的特征因子，提高图像的感受野，能最大程度地保存待处理图像的特征信息，同时解决了级联计算量的问题。

S13：对所述全局特征进行聚类，获得所述待处理图像的特征向量。

进一步地，所述对所述全局特征进行聚类，获得所述待处理图像的特征向量，具体包括：

对所述全局特征进行k聚类，获得k个聚类中心；

进一步地，所述计算所述聚类中心与所述特征图的残差和，并遍历所述聚类中心，获得所述待处理图像的特征向量之后，还包括：

对所述待处理图像的特征向量进行L2归一化处理；

在本发明实施例中，采用VLAD优化步骤S12得到的N×M维度的全局特征，具体地对N×M维度的全局特征进行k聚类，形成k个聚类中心；以该聚类中心为基础，计算全局特征与聚类中心的残差和，形成M维的向量；之后对每个聚类中心进行遍历，并计算全局特征的残差和，得到K行V列特征向量。进一步对该特征向量进行L2归一化处理、采用BP神经网络优化算法对归一化后的特征向量进行优化，实现对参数的拟合，最终获得K×V归一化的VLAD特征向量。采用VLAD优化图像特征表示。通过VLAD的特征编码，不仅能够更有效表示特征之间的相似性，还能有效处理维数灾难的问题，通过聚类中心快速计算待处理图像特征点与聚类中心的距离，从一定程度上提升检索速度。

S14：根据所述待处理图像的特征向量和第一图像集合中各图像对应的特征向量，计算所述待处理图像与所述第一图像集合中各图像的相似度。

在一种可选的实施例中，所述通过预设的分布式空洞卷积网络对所述特征图进行特征提取，获取所述待处理图像的全局特征，具体包括：

在一种可选的实施例中，所述根据所述待处理图像的特征向量和第一图像集合中各图像对应的特征向量，计算所述待处理图像与所述第一图像集合中各图像的相似度，具体包括：

具体地，通过下述公式(1)计算所述待处理图像与所述第一图像集合中各图像的相似度；

其中，A为一待处理图像的K×V维度的特征向量，B为所述第一图像集合中一图像的K×V维度的特征向量。

相对于现有技术，本发明实施例的有益效果在于：

通过预设的空间金字塔池化模型将待处理图像转换为预设尺寸的特征图，使得将尺寸大小不一致的待处理图像转换为固定尺寸大小的特征图；之后将空间金字塔池化模型输出的特征图输入至分布式空洞卷积网络中，采用不同的空洞卷积核对不同尺寸的特征图进行分布式并行计算，通过预设的分布式空洞卷积网络实现对所述特征图中进行特征提取，获取所述待处理图像的全局特征；对所述全局特征进行聚类，获得所述待处理图像的特征向量；根据所述待处理图像的特征向量和第一图像集合中各图像对应的特征向量，计算所述待处理图像与所述第一图像集合中各图像的相似度，采用VLAD优化待处理图像的全局特征后再进行相似度计算，本发明实施例融合了空间金字塔池化、分布式空洞卷积、VLAD等多种方法进行图像相似性检索，具有通用性的、高扩展性，能够有效降低图像特征的计算量，能在图像优化表示的基础上实现快速检索相似图像。

需要说明的是，本发明实施例对第一图像集合和第二图像集合中的图像进行相似度计算前做相同的处理，上文已对第二图像集合中的待处理图像的处理过程进行详细说明，在此不在对第一图像集合中的图像处理过程进行重复说明。

请参阅图3，本发明第二实施例提供了一种图像相似性识别装置，包括：

空间金字塔池化模块1，用于通过预设的空间金字塔池化模型将待处理图像转换为预设尺寸的特征图；

分布式空洞卷积模块2，用于通过预设的分布式空洞卷积网络对所述特征图进行特征提取，获取所述待处理图像的全局特征；

聚类模块3，用于对所述全局特征进行聚类，获得所述待处理图像的特征向量；

相似度计算模块4，用于根据所述待处理图像的特征向量和第一图像集合中各图像对应的特征向量，计算所述待处理图像与所述第一图像集合中各图像的相似度。

在一种可选的实施例中，所述分布式空洞卷积模块2包括：

卷积单元，用于将所述特征图作为预设的分布式空洞卷积网络的输入值，通过所述预设的分布式空洞卷积网络以不同的空洞卷积核进行分布式卷积处理，获得固定维度的全局特征。

在一种可选的实施例中，所述聚类模块3包括：

k聚类单元，用于对所述全局特征进行k聚类，获得k个聚类中心；

残差计算单元，用于计算所述聚类中心与所述特征图的残差和，并遍历所述聚类中心，获得所述待处理图像的特征向量。

在一种可选的实施例中，所述聚类模块3还包括：

归一化处理单元，用于对所述待处理图像的特征向量进行L2归一化处理；

向量优化单元，用于通过预设的BP神经网络优化算法对归一化后的特征向量进行优化。

在一种可选的实施例中，所述相似度计算模块4包括：

余弦相似性计算单元，用于根据优化后的特征向量和第一图像集合中各图像对应的特征向量，采用余弦相似性算法计算所述待处理图像与所述第一图像集合中各图像的相似度。

在一种可选的实施例中，所述装置还包括：

第一图像获取模块，用于获取若干台移动设备在初始定位检测时拍摄的图像，得到第一图像集合，其中，所述第一图像集合包括若干张不同尺寸的图像。

在一种可选的实施例中，所述装置还包括：

第二图像获取模块，用于获取若干台移动设备在回路检测时拍摄的图像，得到第二图像集合，其中，所述第二图像集合包括若干张不同尺寸的图像；

第三图像获取模块，用于获取所述第二图像集合中的任意一张图像作为待处理图像。

本实施中的图像相似性识别装置与第一实施例中的图像相似性识别方法的原理和过程相同，在此不在重复说明。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

参见图4，是本发明第三实施例提供的图像相似性识别设备的示意图。如图4所示，该图像相似性识别设备包括：至少一个处理器11，例如CPU，至少一个网络接口14或者其他用户接口13，存储器15，至少一个通信总线12，通信总线12用于实现这些组件之间的连接通信。其中，用户接口13可选的可以包括USB接口以及其他标准接口、有线接口。网络接口14可选的可以包括Wi-Fi接口以及其他无线接口。存储器15可能包含高速RAM存储器，也可能还包括非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器15可选的可以包含至少一个位于远离前述处理器11的存储装置。

在一些实施方式中，存储器15存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集:

操作系统151，包含各种系统程序，用于实现各种基础业务以及处理基于硬件的任务；

程序152。

具体地，处理器11用于调用存储器15中存储的程序152，执行上述实施例所述的图像相似性识别方法，例如图1所示的步骤S11。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如空间金字塔池化模块。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述图像相似性识别设备中的执行过程。

所述图像相似性识别设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述图像相似性识别设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是图像相似性识别设备的示例，并不构成对图像相似性识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

所称处理器11可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器11是所述图像相似性识别设备的控制中心，利用各种接口和线路连接整个图像相似性识别设备的各个部分。

所述存储器15可用于存储所述计算机程序和/或模块，所述处理器11通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述图像相似性识别设备的各种功能。所述存储器15可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器15可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述图像相似性识别设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本发明第四实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一实施例中任意一项所述的图像相似性识别方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种图像相似性识别方法，其特征在于，包括：

2.如权利要求1所述的图像相似性识别方法，其特征在于，所述通过预设的分布式空洞卷积网络对所述特征图进行特征提取，获取所述待处理图像的全局特征，具体包括：

3.如权利要求2所述的图像相似性识别方法，其特征在于，所述对所述全局特征进行聚类，获得所述待处理图像的特征向量，具体包括：

对所述全局特征进行k聚类，获得k个聚类中心；

4.如权利要求3所述的图像相似性识别方法，其特征在于，所述计算所述聚类中心与所述特征图的残差和，并遍历所述聚类中心，获得所述待处理图像的特征向量之后，还包括：

对所述待处理图像的特征向量进行L2归一化处理；

5.如权利要求4所述的图像相似性识别方法，其特征在于，所述根据所述待处理图像的特征向量和第一图像集合中各图像对应的特征向量，计算所述待处理图像与所述第一图像集合中各图像的相似度，具体包括：

6.如权利要求1所述的图像相似性识别方法，其特征在于，所述方法还包括：

7.如权利要求1所述的图像相似性识别方法，其特征在于，所述方法还包括：

获取所述第二图像集合中的任意一张图像作为待处理图像。

8.一种图像相似性识别装置，其特征在于，包括：

9.一种图像相似性识别设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的图像相似性识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的图像相似性识别方法。