CN109977253B

CN109977253B - 一种基于语义和内容的快速图像检索方法及装置

Info

Publication number: CN109977253B
Application number: CN201910251034.0A
Authority: CN
Inventors: 马琳; 戴进; 谭学治; 何晨光
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2022-10-28
Anticipated expiration: 2039-03-29
Also published as: CN109977253A

Abstract

为了解决现有图像检索方法针对大型数据库检索速度较慢的问题，提供了一种基于语义和内容的快速图像检索方法及装置，属于图像处理技术领域。本发明包括：构建语义分割网络；将离线数据库中所有图像输入语义分割网络，得到每幅图像的一种或多种语义标签；将语义标签全部相同的图像归为一类，得到多个语义数据库，将每个语义数据库对应的语义标签转换为唯一数字标签，并采用数字标签对相应的语义数据库进行标记；将待检索图像输入语义分割网络，得到待检索图像的语义标签，并转换为数字标签；确定与待检索图像具有相同数字标签的语义数据库，并基于内容检索的方式，在确定的语义数据库中检索与待检索图像相匹配的图像。

Description

一种基于语义和内容的快速图像检索方法及装置

技术领域

本发明涉及一种视觉定位中的图像检索方法，特别涉及一种基于语义和内容的快速图像检索方法，属于图像处理技术领域。

背景技术

室内视觉定位技术中的在线阶段需要对用户提供的待定位图像进行快速检索，在定位数据库中找到其匹配图像，从而进行精确定位。现有的图像检索算法大多是对数据库中图像与用户输入图像进行特征提取与比较，以寻找最小欧式距离的匹配特征向量。然而随着数据库的增大，提取的特征数目逐渐增多，在线阶段寻找匹配特征向量的过程需要消耗大量时间，不能满足在线定位的实时性。因此需要一种在确保检索精度条件下的快速检索算法，从而提高在线阶段寻找匹配图像的检索速度。

发明内容

为了解决现有图像检索方法针对大型数据库检索速度较慢的问题，提供了一种基于语义和内容的快速图像检索方法及装置。

本发明的基于语义和内容的快速图像检索方法，所述快速图像检索方法包括：

步骤一、构建语义分割网络；

步骤二、将离线数据库中所有图像输入语义分割网络，得到每幅图像的一种或多种语义标签；

步骤三、将语义标签全部相同的图像归为一类，得到多个语义数据库，将每个语义数据库对应的语义标签转换为唯一数字标签，并采用数字标签对相应的语义数据库进行标记；

步骤四、将待检索图像输入语义分割网络，得到待检索图像的语义标签；

步骤五、将待检索图像的语义标签转换为数字标签；

步骤六、确定与待检索图像具有相同数字标签的语义数据库，并基于内容检索的方式，在确定的语义数据库中检索与待检索图像相匹配的图像。

优选的是，将单张图像I_test的一种或多种语义标签转化成唯一数字标签：

l＝Λ·Ω

转化向量Λ＝[2⁰,2¹,…,2^c]，c表示语义类别的数量，语义判别向量Ω＝[ω₁,ω₂,…,ω_c]^T，其中：

S_i表示语义标签，语义数据库为S＝[S₁,S₂,…,S_c]。

优选的是，所述语义分割网络包括全卷积网络、区域候选网络和感兴趣区域子网；

全卷积网络根据输入的图像，输出该图像的特征图；

区域候选网络根据全卷积网络输出的特征图，生成多个候选区域；

感兴趣区域子网根据全卷积网络输出的特征图，生成每个语义类别对应的k×k个位置敏感分数图，每个位置敏感分数图有c+1个通道输出；感兴趣区域子网的池化层利用候选区域对每个位置敏感分数图进行池化操作，并输出的c+1维特征图按维度求和得到c+1维的向量；将得到的c+1维的向量代入到多项逻辑斯蒂回归公式中，获得该候选区域中的目标属于每个类别的概率，并按照超过阈值φ且最大的概率将其归类，确定输入图像的语义标签。

优选的是，所述步骤一中，构建语义分割网络的损失函数L包括：

分类损失函数L_cis和位置损失函数L_reg；

分类损失函数L_cis，用于表征训练语义分割网络后，语义分割网络预测的语义区域与实际语义区域之间语义分类结果的损失；

位置损失函数L_reg，用于表征训练语义分割网络后，语义分割网络预测的语义区域与实际语义区域之间语义在图像中的位置检测结果的损失。

优选的是，损失函数L为：

L(s,t_x,y,w,h)＝L_cis(s_c*)+λsign(c*)L_reg(t,t*)

其中，s表示逻辑斯蒂回归响应，c*表示感兴趣区域子网输出的实际语义区域的标签，c*＞0表示分类正确，s_c*表示c*的逻辑斯蒂回归响应，λ表示超参数，用于表示分类损失和位置损失的相对重要性，t_x,y,w,h表示感兴趣区域子网预测的候选区域的位置，x,y,w,h表示候选区域矩形框的左上角横纵坐标矩形宽度及高度，t表示t_x,y,w,h的简写，t*表示实际语义区域位置；

分类损失函数为：

L_cis(s_c*)＝-log(s_c*)

位置损失函数为：

平滑L₁损失函数为：

x＝t_j-t_j*。

优选的是，所述步骤六中，基于内容检索的方式，在确定的语义数据库中检索与待检索图像相匹配的图像的过程包括：

步骤六一、在确定的语义数据库中提取每张图像的结构特征与颜色特征，构成特征向量；

步骤六二、对待检索图像进行与步骤六一中相同的结构与颜色特征提取，构成特征向量；

步骤六三、将待检索图像的特征向量与语义数据库中每一张图像的特征向量进行欧氏距离计算，与待检索图像特征向量欧氏距离最小的特征向量对应的语义数据库中图像即为待检索图像的匹配图像。

本发明还提供一种计算机可读的存储设备，所述存储设备存储有计算机程序，所述计算机程序被执行时实现上述基于语义和内容的快速图像检索方法。

本发明还提供一种基于语义和内容的快速图像检索系统，包括存储设备、处理器以及存储在所述存储设备中的并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序实现上述基于语义和内容的快速图像检索方法。

本发明的有益效果在于，本发明先将数据库中图像进行语义判别，将相同语义的图像划分到同一语义数据库，并将语义标签转换为唯一的数据标签，再对每一种语义数据库中图像进行特征提取。在检索阶段先确定待检索图像语义种类，再针对其语义种类对应的数字标签找到对应语义数据库进行精确检索，进而在保证检索精度的条件下提高检索速度。本发明引入了语义数据库的概念，用来将大型离线数据库进行精确分类，消除检索时间与数据库容量间的线性增长关系。利用本发明进行室内视觉定位中图像检索步骤时，检索精度比现有方法提升了30％左右，检索速度随着数据库容量增大，提升效果越明显。

附图说明

图1是本发明的流程图；

图2是实施例中利用语义分割网络进行语义识别的结果图，其中黑色框为识别出的结果；

图3是实施例中本发明方法进行离线数据库分类的分类混淆矩阵结果图；

图4是利用现有方法和本发明方法平均检索准确率的对比曲线图；

图5是现有方法与本发明方法进行图像检索的时间开销对比曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

如图1所示，本实施方式的基于语义和内容的快速图像检索方法，包括：

步骤一、构建语义分割网络；

步骤五、将待检索图像的语义标签转换为数字标签；

本实施方式先将数据库中图像利用构建的语义分割网络进行语义判别，将相同语义的图像划分到同一语义数据库，并将语义标签转换为唯一的数据标签，在检索阶段先确定待检索图像语义种类，再针对其语义种类对应的数字标签找到对应语义数据库进行精确检索，进而在保证检索精度的条件下提高检索速度。

离线数据库中图像输入到语义分割网络之后，每一张图像都附带了其语义标签。考虑到不同语义标签的排列组合现象，定义语义判别向量Ω＝[ω₁,ω₂,…,ω_c]^T，对于离线数据库中每一张图像I_test，均有对应的语义标签S_i与语义判别向量Ω_test。由于语义标签中语义成分过多，其排列顺序也会相应延长检索时间，因此针对于每一张图像，将其中包含的语义信息转化成相应的数字标签会简化检索过程。将单张图像I_test的一种或多种语义标签转化成唯一数字标签：

l＝Λ·Ω

转化向量Λ＝[2⁰,2¹,…,2^c]，c表示语义类别的数量

语义数据库为S＝[S₁,S₂,…,S_c]。

最终，将拥有相同数字标签的图像划分为一类，形成语义数据库，其数字标签即为该类语义数据库的检索标记。

构建语义分割网络的过程中还包括利用训练集对建立的语义分割网络进行训练，训练之后获得的网络参数符合要求了，再用语义分割网络对图像进行语义标签识别；

本实施方式的语义分割网络包括全卷积网络、区域候选网络和感兴趣区域子网；

全卷积网络根据输入的图像，输出该图像的特征图；

在候选区域生成网络(Region Proposal Network，RPN)网络中，由于输入的图像中包含了多种语义在图像中的位置信息和种类信息，因此在训练时需要计算其输出的预测语义区域和各实际语义区域的重叠率。该重叠率被定义为IoU(Intersection overUnion)，是一种测量在特定数据集中检测相应物体准确度的一个标准，其经常用Jaccard系数来进行评估：

其中A，B分别代表预测像素范围与真实像素范围。在训练过程中，规定Jaccard系数的范围在[α,1]为正样本，表示的为语义的主体部分；Jaccard系数的范围在[0.1,β]为负样本，表示的为背景类，随机选择比例1:1的正负样本作为感兴趣区域(Region OfInterest，ROI)子网中位置敏感ROI池化层的输入；

在ROI子网中，同样对全卷积网络输出的特征图进行卷积操作，ROI子网利用卷积操作在整幅图像上为每一个类别生成k×k个位置敏感分数图。每一个位置敏感分数图上的值，代表了该空间位置上为该种类元素的得分情况。每个位置敏感图有c+1个通道输出，对于一个由RPN网络获得的R×S尺寸的候选区域，可以在每个位置敏感图上的候选区域划分为k×k个子区域，每个子区域的大小为R×S/k²，该子区域中包含有多个位置敏感分数。由于过多数据会对后续分类操作形成干扰，因此需要用池化操作对数据进行压缩。对于任意子区域bim(i,j),0≤i,j≤k-1，定义一个位置敏感池化操作为：

其中，r_c(i,j|Θ)是子区域bin(i,j)对c个类别的池化响应，z_i,j,c是子区域bin(i,j)所对应的位置敏感分数图，(x₀,y₀)代表候选区域左上角的像素坐标，n是子区域bin(i,j)中的像素数目，Θ代表了网络的所有学习所得到的参数。经过位置敏感池化之后，原来R×S/k²大小的每个子区域变成了一个值，对于每一类来说，被划分子区域变成了k×k个位置敏感分数，分别代表了该位置对应该类别k×k个空间方位的得分。最终，计算k×k个子区域的池化响应输出r_c(i,j|Θ)的均值，将ROI子网池化层输出的c+1维特征图按维度求和得到一个c+1维的向量：

将得到的c+1维的向量代入到多项逻辑斯蒂回归(Softmax)公式中，获得该候选区域中的目标属于每个类别的概率，并按照超过阈值φ且最大的概率将其归类，确定输入图像的语义标签，如果图像中含有语义成分，其经过语义分割网络后绑定的语义标签为S_test＝[S₁,S₂,…,S_i]。

为了确定语义分割网络训练时的准确程度和最佳迭代次数，需要设置相关的损失函数。语义检测预测了网络语义区域与实际语义区域之间的损失最小化，在语义分割网络中通常会采用随机一度下降法去更新网络参数，使损失函数最小化。本实施方式的损失函数L包括：分类损失函数L_cis和位置损失函数L_reg；

损失函数L为：

L(s,t_x,y,w,h)＝L_cis(s_c*)+λsign(c*)L_reg(t,t*)

分类损失函数为：

L_cis(s_c*)＝-log(s_c*)

位置损失函数为：

平滑L₁损失函数为：

x＝t_j-t_j*。

当根据损失函数确定语义分割网络的准确程度和最佳迭代次数达到要求，完成语义分割网络的构建，用于步骤二获取离线数据库中所有图像的语义标签，及步骤四待检索图像的语义标签；

本实施方式的步骤六中，基于内容检索的方式，在确定的语义数据库中检索与待检索图像相匹配的图像的过程包括：

实施例

采用以下实施例验证本发明的有益效果：

本实施例所述一种基于语义和内容的快速图像检索方法按照以下步骤进行：

1、在某楼层，推着承载着充电电池、笔记本电脑、一个工业摄像头的多媒体移动采集平台，运行计算机中的MATLAB程序实现工业摄像头的调用，对走廊中的环境进行图像采集，针对多语义环境进行多角度图像采集，保存在数据库中。利用MATLAB中自带的标注工具对数据库中图像分别进行语义标注，构建神经网络训练集。将训练集中图像输入到学习率与迭代次数符合要求的神经网络框架中，完成语义分割网络的构建。概率阈值α＝0.7，概率阈值φ＝0.8，经大量实验证明φ为0.8时为最佳的选择。

2、利用相同的图像采集平台在实验环境中进行图像采集，构建图像检索数据库。其图像采集要求每隔0.5m进行相应的图像采集，每点采集一张。将采集到的全部图像输入语义分割网络进行语义识别，得到每一张图像的语义标签。如图2所示为图像经过语义分割网络后的语义识别结果。本发明方法所规定的语义种类除背景类外共计9类，分别为门、窗、暖气片、海报、展览板、通风口、消防栓、垃圾桶以及安全出口标识。

3、对检索数据库中每一张图像的语义标签进行转换，形成对应的数字标签。对数字标签相同的图像进行归类处理，形成语义数据库，以数字标签作为其语义种类的检索标记，并对每种语义数据库中的图像进行颜色与结构特征提取。如图3所示为检索数据库中图像进行分类数据后的分类混淆矩阵，可以看出其分类较为精确且分类准确率较高。

4、用户在检索数据库构建的相同环境中进行图像采集，将采集的图像通过语义分割网络进行语义识别，得到该图像的语义标签。再将其语义标签转换为数字标签，定位到拥有同标签的语义数据库，在数据库中再进行精确检索。

5、对用户输入的图像进行颜色与结构特征提取，与该语义数据库中事先存储的颜色结构特征向量进行欧式距离计算与比较，与输入图像特征欧氏距离最小的特征代表的图像即为输入图像的检索匹配图像。如图4是利用传统方法(基于内容的图像检索方法)和本发明方法(一种基于语义和内容的快速图像检索方法)平均检索准确率的对比曲线图，检索的时间开销对比曲线如图5所示。可知本发明方法进行图像检索，在保证检索精度的条件下，检索所花费的时间开销大幅降低，其降低程度随检索数据库容量的增大而增大。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。