CN111723223B

CN111723223B - 一种基于主体推断的多标签图像检索方法

Info

Publication number: CN111723223B
Application number: CN202010515544.7A
Authority: CN
Inventors: 李福亮; 成汶霖; 王兴伟
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2021-05-18
Anticipated expiration: 2040-06-09
Also published as: CN111723223A

Abstract

本发明公开一种基于主体推断的多标签图像检索方法，该方法包括多标签图像数据集的准备及预处理、初步特征提取、物体识别及粗粒度分割、物体关系特征提取、物体主次推断以及哈希编码。数据集包含的物体类别及位置标签用于图像中物体识别和粗粒度分割过程的训练，而图像所属类别标签用于物体主体推断和哈希编码过程的训练。本发明方法能够通过对多标签图像中多物体的关系进行分析推断，得到多物体的主次关系，并编码到哈希码中，从而有效提高了多标签图像检索的准确性。

Description

一种基于主体推断的多标签图像检索方法

技术领域

本发明属于多标签图像检索的计算机分析技术领域，涉及一种基于主体推断的多标签图像检索方法。

背景技术

多标签图像检索是基于内容的图像检索技术中一个重要研究点，基于此技术，以图搜图、网购找同款等应用得到大量普及和发展。

多标签图像因包含多类物体而使得难以对图像的类别进行准确判断，进而用于查询时就难以得到准确的检索结果。针对此问题，现有方法大都基于深度学习方法直接学习得到哈希编码，其要么综合多层次图像特征，要么利用用户查询会话的上下文信息等提高哈希编码的准确性，然而，尚未考虑到图像中多个物体的主要次要关系，而这对检索的准确度是非常重要的。本发明通过推断多物体的主次关系，进而可以按照重要性进行排序，相对已有方法能得到更准确的检索结果。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于主体推断的多标签图像检索方法，该方法可以根据物体间的位置关系等有效推断出物体主次关系，并将其编码到哈希码中，实现准确高效的多标签图像检索。

本发明的一种基于主体推断的多标签图像检索方法，包括：

步骤1：多标签图像样本数据集的准备和预处理，包括公共数据集的样本筛选、尺度归一化处理、去均值处理和增强处理；

步骤2：对预处理后的多标签图像进行基于二值特征图和边框提议的多物体粗粒度分割；

步骤3：对多标签图像的粗粒度分割结果，提取同类物体数目、物体居中程度、物体区域大小以及物体相对远近关系四种多物体关系特征，且都构造成等长向量的形式；

步骤4：利用四种物体关系特征进行基于GRU的主体推断，得到多标签图像中多个物体的主次关系，主次关系体现了物体对图像所属类别的贡献程度；

步骤5：基于物体主次关系构造用于检索的哈希编码；

步骤6：多标签图像检索。

在本发明的基于主体推断的多标签图像检索方法中，所述步骤1中的样本筛选要从公开数据集中筛选出具有多个物体标签的图像。

在本发明的基于主体推断的多标签图像检索方法中，所述步骤2具体包括：

步骤2.1：基于卷积神经网络的初步图像特征提取，得到一列特征图；

步骤2.2：对步骤2.1得的特征图经过1×1卷积变换成一个特征图F，再按式(1)对F中所有像素进行Softmax归一化处理，得到特征图S，进而通过阈值函数(2)将其变换为二值特征图T：

其中，s_i,j和f_i,j分别表示S和F中第i行j列的像素值，

是预定义参数；

步骤2.3：基于RPN网络对图像进行边框提议，将得到的候选框与全图的二值特征图进行交运算，候选框能够辅助二值特征图分隔出每个物体区域，二值特征图也能反过来辅助筛选出候选框；

步骤2.4：对候选框，用平滑一范数损失函数进行边框回归，得到能更准确指明物体位置的矩形标定框；

步骤2.5：对筛选出的标定框，通过交叉熵损失函数，进行Softmax分类。

在本发明的基于主体推断的多标签图像检索方法中，，所述步骤3具体包括：

步骤3.1：统计多标签图像中同类物体的数目，构造物体数目长度的同类物体数目特征向量如下式(3)所示：

其中，m为图像数据集总包含物体类别数目，n为一幅图像中识别出的物体总数，图像中m个类别的物体数目分别为n₁,n₂,...,n_m；

步骤3.2：以物体区域的重心到图像中心的距离c_l作为物体居中程度的衡量标准，构造出的物体居中程度向量如式(4)所示：

C_object＝(c₁,c₂,...,c_n) (4)

其中，c_l定义如式(5)所示：

其中，(x_l,y_l)为物体区域的重心坐标，(x_k,y_k)为图像中心坐标，

为第l个物体区域内的像素点数目，物体区域由二值特征图区域和物体矩形标定框的交集决定；

步骤3.3：以物体区域内的像素点数目衡量物体区域大小，如式(6)所示：

步骤3.4：获取物体相对远近关系，利用卷积神经网络估计像素点的相对远近，即深度，得到表征像素点深度的深度图，通过物体区域内所有像素点深度值的中位数来衡量该物体的深度，进而构造出所有物体的相对远近关系向量如式(7)所示：

D_object＝(d₁,d₂,...,d_n) (7)

其中，

为物体l区域内所有numP_l个像素点深度值得中位数。

在本发明的基于主体推断的多标签图像检索方法中，所述步骤5具体包括：

步骤5.1：根据物体的主次关系构造加权高斯分布图，其(x,y)处的值如式(8)所示，越重要的物体，各个物体所代表的高斯分布峰值直观表征了物体的重要程度：

其中，

是物体l的重心点坐标，协方差矩阵∑取为式(9)所示：

其中，

和

分别为目标l的标定框的宽和高，这可以使高斯分布的1.96σ区域尽量落在物体所在区域，可以在突出目标区域特征的同时，有效避免引入背景区域过多的特征。

步骤5.2：计算图像的哈希编码如式(10)所示：

其中，

表示输入为C维，输出为m维的全连接操作，x＝(x₁,x₂,...x_c)为加权高斯分布图和步骤2.1的C个特征图加权平均池化所得的C维特征向量。

本发明的一种基于主体推断的多标签图像检索方法，可以通过对多标签图像中多个物体的关系进行分析，推断出物体的主次关系，有利于判断图像所要表达的物体类别，能一定程度解决多标签图像语义表达不清晰的问题；并且利用主次关系对检索结果进行排序，也能保留次要物体的信息，提高结果的总体得分。

附图说明

图1为本发明的一种基于主体推断的多标签图像检索方法的流程图；

图2为多标签图像关系特征提取流程图；

图3为基于关系特征的主体推断流程图；

图4方法测试结果图。

具体实施方式

本发明提出了一种基于主体推断的多标签图像检索方法。该方法利用深度卷积神经网络来提取多标签图像中的物体关系特征，进而利用循环神经网络推断多个物体的主次关系，在此基础上将主次关系进行哈希编码，用于图像的检索。以下详细说明本发明方法涉及的关键步骤。

如图1所示，本发明的一种基于主体推断而定多标签图像检索方法，包括如下几方面内容：

一、关系特征提取部分：

请参阅图2所示的多标签图像关系特征提取流程，具体包括如下步骤：

步骤1，图像预处理：用于模型训练的多标签图像数据集包含用于训练的标签有：物体类别(体现了多标签)、物体位置坐标、图像类别标签，其中前两者用于图像关系特征提取的训练，后一个用于主次推断以及哈希编码的训练。

多标签图像样本数据集的预处理，包括从公共数据集中筛选出包含有多个物体的样本、图像尺度归一化、训练集和测试集去均值、图像增强用于扩增数据集。

步骤2，图像颗粒度分割：对多标签图像进行基于二值特征图和边框提议的多物体粗粒度分割，所述步骤2具体包括：

步骤2.1：基于GoogLeNet卷积神经网络的初步图像特征提取，得到一列C个特征图；

步骤2.2：对步骤2.1得的C个特征图经过1×1卷积变换成一个特征图F，再按式(1)对F中所有像素进行Softmax归一化处理，得到特征图S，进而通过阈值函数(2)将其变换为二值特征图T：

其中，s_i,j和f_i,j分别表示S和F中第i行j列的像素值，

是预定义参数。

二值特征图通过将物体和背景区域分别取值为1和0，可以用于表征图像中物体的大致所占区域，但是其仅仅能将物体从背景中分离出来，相互靠近的物体所处的区域是融合到一起的，并不能将图像中包含的多个物体分隔开，不具备区分物体的能力。

步骤2.3：为了区分不同的物体，基于RPN网络对图像进行边框提议，将得到的候选框与全图的二值特征图进行交运算，候选框能够辅助二值特征图分隔出每个物体区域，二值特征图也能反过来辅助筛选出候选框，从而降低后续定位和识别的难度；

步骤2.4：对筛选出的候选框，用平滑一范数损失函数进行边框回归，得到能更准确指明物体位置的矩形标定框；

步骤2.5：对筛选出的标定框，通过交叉熵损失函数，进行Softmax分类。交叉熵损失函数配合Softmax分类可以极大地简化训练过程反向传播梯度的计算，降低计算量。

步骤3，关系特征提取：对多标签图像的粗粒度分割结果，提取同类物体数目、物体居中程度、物体区域大小以及物体相对远近关系四种多物体关系特征，且都构造成等长向量的形式；所述步骤3具体包括：

步骤3.1，同类物体数目：统计多标签图像中同类物体的数目，构造物体数目长度的同类物体数目特征向量如下式(3)所示：

步骤3.2，物体居中程度：以物体区域的重心到图像中心的距离c_l作为物体居中程度的衡量标准，构造出的物体居中程度向量如式(4)所示：

C_object＝(c₁,c₂,...,c_n) (4)

其中，c_l定义如式(5)所示：

步骤3.3，物体区域大小：以物体区域内的像素点数目衡量物体区域大小，如式(6)所示：

步骤3.4，相对远近关系：获取物体相对远近关系，利用卷积神经网络估计像素点的相对远近，即深度，得到表征像素点深度的深度图，通过物体区域内所有像素点深度值的中位数来衡量该物体的深度，进而构造出所有物体的相对远近关系向量如式(7)所示：

D_object＝(d₁,d₂,...,d_n) (7)

其中，

为物体l区域内所有numP_l个像素点深度值得中位数。

二、主体推断部分

请参阅图3的基于关系特征的主体推断流程。首先将图像中检测出的物体映射为图模型G＝(V,E)，如图3左侧映射所示，其中节点v∈V代表检测到的目标所在区域，e∈E代表每对目标间的关系，包括关系特征提取部分所提取的同类目标数目、目标居中程度、目标区域大小、相对远近关系以及目标的其他一些关系属性。

三、哈希编码部分：

为了能实现高效的检索，本发明采用简洁高效的哈希编码方式。为了使本发明获取到的物体主次关系能在检索时起到作用，本发明通过构造一个加权高斯分布图将其编码到哈希码中。具体参见步骤5：

步骤5：基于物体主次关系构造用于检索的哈希编码，具体包括：

步骤5.1，加权高斯分布图：根据物体的主次关系构造加权高斯分布图，其(x,y)处的值如式(8)所示，越重要的物体，各个物体所代表的高斯分布峰值直观表征了物体的重要程度：

其中，

是物体l的重心点坐标，协方差矩阵∑取为式(9)所示：

其中，

和

步骤5.2，哈希编码：由于高斯分布图仅仅包含了图像中物体的主次关系信息，为了将图像本身的视觉特征也包含进哈希码中，本发明通过将1.2.1步的C个特征图和高斯分布图进行加权平均池化，以将特征融合到一起后再进行哈希编码。

计算图像的哈希编码如式(10)所示：

其中，

步骤6：多标签图像检索。

用例评价

本专利在公开数据集PASCAL VOC2007和PASCAL VOC2012上进行了测试实验。

1、评价指标

本专利采用了多标签图像检索任务中普遍使用的四种检索性能评价指标，包括：归一化折损累积收益(Normalized Discounted Cumulative Gains，NDCG)、平均累积收益(Average Cumulative Gains，ACG)、均值平均准确度(Mean Average Precision，MAP)、加权均值平均准确度(Weighted MAP)。

其中，NDGG是一个对检索结果排序质量进行评估的指标；ACG用来表示一次检索结果图像列表中前k幅图像与用户查询图像的平均相似度；MAP表示的是一系列检索结果图像的精确度分数平均值，其是为了能兼顾评价准确率和召回率而设计的综合指标；加权MAP是专门针对多标签数据设计的一种MAP的加权变体。

此四个指标均是取值越高，检索性能越好。

2、评价结果

本专利在数据集PASCAL VOC2007和PASCAL VOC2012上，分别从NDCG、ACG、MAP和Weighted MAP四个方面，取了四种哈希编码长度，进行了方法的测试，测试结果请参阅图4方法测试结果。

本发明在NDCG、MAP和加权MAP方面都较优于目前的多标签图像检索方法，说明了本发明在综合性能、排序效果上的有益效果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明的思想，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。