CN115757855A

CN115757855A - 一种基于图结构匹配的图像检索方法

Info

Publication number: CN115757855A
Application number: CN202211477490.5A
Authority: CN
Inventors: 蒋杰克; 王振华; 孟佳俊; 应凯宁; 周志雄
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-03-07

Abstract

本发明公开了一种基于图结构匹配的图像检索方法，将查询图像的图结构输入到训练好的图神经网络，获取查询图像的节点特征以及节点之间相对和绝对位置，所述图神经网络包括特征提取模块、相对位置预测头和绝对位置预测头，特征提取模块用于提取图结构的节点特征，相对位置预测头和绝对位置预测头分别用于预测节点之间相对和绝对位置，通过计算分类损失和辅助损失，完成网络的训练。本发明提高了网络的训练效果，较大程度提高了图像检索的性能。

Description

一种基于图结构匹配的图像检索方法

技术领域

本申请属于图像检索技术领域，尤其涉及一种基于图结构匹配的图像检索方法。

背景技术

图像检索即指由用户提供查询信息(图像，文本，图结构等)，基于查询信息为图像数据库中图像计算相似度，并向用户返回按相似度排序的前n张图像。

按图像检索过程中用户所提供的查询信息的类型可将图像检索分为若干类：

基于文本，用户提供文本形式的查询信息，例如“桌子上有一只猫”，“汽车左边有一只狗，后面有一个行人”，通常为非结构化。

基于图像，用户提供的查询信息也为图像。

基于图结构，用户提供结构化的查询信息，包括图像中可能出现的对象类别，以及对象之间的相对位置。

早期基于图结构的图像检索受限于图像分割算法发展，以及有限的离散空间关系，其检索效果及可用性有较大有待提高的空间。目前的技术方案关注于从用户提供的文本或图像中提取语义信息而忽略如何协助用户使得用户能够直接向检索系统提供语义信息。

发明内容

本申请的目的是提供一种基于图结构匹配的图像检索方法，直接使用由用户提供的结构化信息，更精确地描述用户的查询意图，并避免了潜在的信息丢失的语义提取这一过程，取得了令人满意的结果。

为了实现上述目的，本申请技术方案如下：

一种基于图结构匹配的图像检索方法，包括：

获取查询图像，以查询图像中各个对象为节点，节点之间的连线为边，将对象的属性作为初始节点特征，将边的起始节点与终止节点的中心坐标之差作为边的特征，构建图结构；

将查询图像的图结构输入到训练好的图神经网络，获取查询图像的节点特征以及节点之间相对和绝对位置，所述图神经网络包括特征提取模块、相对位置预测头和绝对位置预测头，所述特征提取模块为三层Transformer图卷积模块，用于提取图结构的节点特征，所述相对位置预测头和绝对位置预测头为多层感知机，分别用于预测节点之间相对和绝对位置；

根据图神经网络输出的节点特征，计算查询图像与图像数据库中图像的图结构相似度，向用户反馈查询得到的图像。

进一步的，所述初始节点特征为对象属性的独热编码。

进一步的，所述边的特征为归一化后边的起始节点与终止节点的中心坐标之差。

进一步的，所述计算查询图像与图像数据库中图像的相似度，包括：

对于任意两张图像，计算其中一张图像的每个节点特征与另一张图像的每个节点特征的节点相似度，所述节点相似度为两个节点特征的点积；

从一张图像的每个节点特征与另一张图像的每个节点特征的节点相似度中选取最大值，作为两张图像的图结构相似度。

进一步的，所述图神经网络的损失函数包括分类损失和辅助损失，其中分类损失用于计算节点相似度的损失，所述辅助损失包括节点之间相对位置的回归损失和绝对位置的回归损失。

本申请提出的一种基于图结构匹配的图像检索方法，通过相对位置预测头和绝对位置预测头分别用于预测节点之间相对和绝对位置，通过计算分类损失和辅助损失，完成网络的训练，提高了网络的训练效果，较大程度提高了图像检索的性能。

附图说明

图1为本申请基于图结构匹配的图像检索方法流程图；

图2为本申请图神经网络结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，本申请提出了一种基于图结构匹配的图像检索方法，包括：

步骤S1、获取查询图像，以查询图像中各个对象为节点，节点之间的连线为边，将对象的属性作为初始节点特征，将边的起始节点与终止节点的中心坐标之差作为边的特征，构建图结构。

本申请搭建图神经网络，对用户查询图像先构建对应的图结构，然后通过图神经网络对图结构进行处理，得到所查询图结构对应的节点特征，然后计算与图像数据库中所有图结构的相似度，向用户返回基于相似度的TOP k个图像作为查询结果。

对于任意查询图像，即用户输入的图像，可以采用现有技术的分割模型得到其分割信息，用来构建图结构。至于如何来对查询图像进行分割检测获取图像中的对象，是本领域比较成熟的技术，这里不再赘述。

图结构中，任一节点代表图像中的某一确定实体对象，初始节点特征为该对象类别、颜色、形状的onehot编码(独热编码)，边特征为归一化后边的起始节点与终止节点的中心坐标之差(任意2个实体对象直接存在2个相互指向的有向边)。所构建的图结构包括2个集合：初始节点特征集合H＝{h₁,h₂,…,h_i,…h_n}，n为节点的个数，边特征集合E＝{e₁₂,e₁₃,…,e_1n,…e_nn-1}，e_ij为节点i至节点j有向边特征。

步骤S2、将查询图像的图结构输入到训练好的图神经网络，获取查询图像的节点特征以及节点之间相对和绝对位置，所述图神经网络包括特征提取模块、相对位置预测头和绝对位置预测头，所述特征提取模块为三层Transformer图卷积模块，用于提取图结构的节点特征，所述相对位置预测头和绝对位置预测头为多层感知机，分别用于预测节点之间相对和绝对位置。

本申请所构建的图神经网络如图2所示，包括特征提取模块、相对位置预测头和绝对位置预测头。

其中，特征提取模块为3层Transformer图卷积模块，输入为图结构，即初始节点特征以及边特征，输出为图结构的节点特征，其处理过程如下：

H^l表示第l层Transformer图卷积模块的输入节点特征集合，

表示第i个节点的节点特征。E表示边特征结合，因为不对边节点特征进行更新，故不对E使用上标区分，e_ij表示节点i至节点j的边特征。H^l与E作为Transformer图卷积模块的输入。当l等于1时，H¹中

就是初始节点特征。

对于Transformer图卷积模块的第c个头注意力(head attention)，起始节点i至终止节点j的多头注意力(multi-head attention)计算如下：

其中

d为各个头的特征长度。q、k、e为计算注意力所需的中间向量，W与b分别为可学习的矩阵和向量，α即为所计算的注意力，后续将用于计算节点特征。

其中，

e_c,ij表示为第l层第c个头的中间结果，仅用于计算

表示第l层第c个头的可学习query矩阵，

表示第l层第c个头的可学习query向量，

表示第l层第c个头的可学习key矩阵，

表示第l层第c个头的可学习key向量，W_c,e表示第c个头用于边特征计算的可学习矩阵，e_ij为节点i至节点j有向边特征，b_c,e表示第c个头用于边特征计算的可学习向量，

表示第l层第c个头从节点i至节点j的注意力，

表示与节点i相连接的节点数量，即以节点i为起始节点的所有终止节点数量。

首先使用对应的可训练转换矩阵

及

将起始节点特征

转换为query向量

将终止节点特征

转换为key向量

。所提供的边特征e_i,j将会被作为附加的信息编码进key向量。

得到多头注意力之后，将通过如下的公式将信息聚合到节起始点i：

||表示连接操作，将C个头注意力连接到一起。其中

为经过第l层Transformer图卷积模块提取到的节点i的节点特征。其中，

表示第l层第c个头用于计算中间结果v的可学习矩阵，

表示第l层第c个头用于计算中间结果v的可学习向量，C表示头的数量，

表示与节点i相连接的节点数量。

最后一层Transformer图卷积模块输出的节点特征就是整个特征提取模块的输出，然后，采用相对位置预测头和绝对位置预测头计算节点之间相对和绝对位置。特征提取模块所提取的节点特征将分别作为相对/绝对位置预测头的输入。

其中，相对位置预测头：

对于任意两个的节点特征，相对位置预测头预测其对应对象相对位置关系，即对象中心坐标之差。此部分可由多层感知机组成，计算过程以节点特征h_i及h_j举例说明，拼接这两个张量作为输入。具体过程如下：

其中mlps表示多层感知机，concat表示在某个维度上连接多个向量或矩阵，输出为1x2的张量，sigmoid(..)*2-1意在将输出映射在[-1,1]，sigmoid是激活函数。

绝对位置预测头：

对于给定的节点特征，绝对位置预测头预测其对应对象的绝对位置，即在对应图像上的中心坐标。此部分可由多层感知机组成，计算过程以节点特征h_i举例说明。具体过程如下：

sigmoid(mlps(h_i))*2-1

输出为1x2的张量，sigmoid(..)*2-1意在将输出映射在[-1,1]。

本申请相对位置预测头和绝对位置预测头输入为节点特征，输出为节点所对应对象在图像中的归一化坐标，以及任意两个节点之间坐标之差。

本申请在构建图神经网络之后，需要先对构建的图神经网络进行训练，训练图神经网络，首先需要获取训练样本。本实施例以COCO stuff数据集为例，基于此展开整个图神经网络模型的训练以及测试过程。COCO stuff相比于COCO，增加了81类stuff(如天空，草地等)的像素级别的标注信息。从数据集中随机采样获取训练样本时，可提前提取图像的图结构，亦可在随机采样时提取图结构。

对于每一张图片，计算各个对象(图中的车、人、动物等等)的中心坐标。本申请将对象分割掩码坐标的平均值作为对象的中心坐标，由于COCO的分割标注为多边形顶点坐标，因此需求得多边形的形心作为其中心坐标。

设待计算形心的多边形由k个点(x₀,y₀),(x₁,y₁),(x₂,y₂)…(x_k-1,y_k-1)所组成，其形心(C_x,C_y)计算如下：

A为此多边形的面积，计算如下：

对于每一张图给定的标注，在此基础上构建图结构，节点初始特征为对象类别、颜色、形状等(可由onehot编码表示)，边特征编码为归一化后其起始节点与终止节点的中心坐标之差。

本申请结合可能的应用场景在COCO stuff已有的类别的基础之上引入通配类，即用户不必指定对象必须为COCO stuff中已知的一类，使用通配类表示该对象对用户未知或对现有的数据集未知。

然后，为提高模型的鲁棒性，本申请采用随机采样的方式，并对所采样得到的图结构生成正负样本，最后将正负样本与原图结构的匹配度作为模型训练的监督信号。具体如下：

假设batch size设置为4，从数据集中随机采集4个图结构{(N₁,E₁),(N₂,E₂),(N₃,E₃),(N₄,E₄)}作为父图结构，以一定的概率丢弃原图结构中的若干节点以及对应边，分别构建其对应的子图结构{(N′₁,E′₁),(N′₂,E′₂),(N′₃,E′₃),(N′₄,E′₄)}，即子图结构的节点集合与边集合都为原图结构的子集，同时保证子图结构的连通性。其中N表示节点特征集合，E表示边特征集合，下标用于表示从何图像上所构建图结构，上标用于区别父图与子图。

再按一定比例将子图结构的节点类别编码为通配类，即抹除其原先的类型，并设置为通配类。由此使得训练样本更具多样性，提高模型最终的鲁棒性。

子图结构与其对应的父图结构结对构成正样本，与其它子图结构的父图结构结对构成负样本。现总共已有8个图结构，经过图卷积神经网络提取特征后可得对应图结构的节点特征。

因父图结构与子图结构的节点存在一一对应的关系，本申请在此基础之上建模节点匹配以及图结构匹配的问题。设全体父图结构节点特征集合H＝H₁∪H₂∪…∪H_n＝{h_1,1,h_1,2,h_1,3,…,h_n,k-1,h_n,k}，全体子图结构节点特征集合为H′＝H′₁∪H′₂∪…∪H′_n＝{h′_1,1,h′_1,2,h′_1,3,…,h′_n,k-1,h′_n,k}，其中h_i,j与h′_i,j表示某节点特征，第一个下标为其对应图像的序号，第二个下表表示其对应图像中的对应实体对象；H_i与H′_i表示某图的所有节点特征的集合，下标表示其对应图的序号，上标用于区别父图与子图。

节点相似度计算如下：

similarity_(ij,pq)＝dotproduct(h′_i,j,h_p,q)；

其中dotproduct表示点积，similarity为本申请所定义的节点相似度，h_i,j表示子图i中的第j个节点特征，h_p,q表示父图p中的第q个节点特征。

图结构相似度计算如下：

similarity_(i,p)＝max({dotproduct(h′,h)|h′∈H′_i,h∈H_p})；

其中max用于求得集合中的最大值，H′_i表示子图所有节点特征的集合，H_p表示附图p所有节点特征的集合，h′表示子图H′_i集合中的某一图像节点特征集合，h表示父图H_p集合中的某一图像节点特征集合。

根据上面的描述，本申请中，对于任意两张图像，其中一张图像的每个节点特征与另一张图像的每个节点特征的节点相似度，为两个节点特征的点积；从一张图像的每个节点特征与另一张图像的每个节点特征的节点相似度中选取最大值，即为两张图像的图结构相似度。

对于子图结构(N′_i,E′_i)中的一个节点h′_i,j与父图结构(N_p,E_p)中一个节点h_q,p相匹配，当且仅当两者的节点相似度满足以下等式：

similarity_(ij,pq)＝max({dotproduct(h′_i,j,h)|h∈N_p})；

其中max用于求得集合中的最大值，下标i，p表示图像编号；h′_i,j与h_q,p表示对应图结构中编号分别为j，q的节点特征。

对于子图结构(N′_i,E′_i)与父图结构(N_p,E_p)的相匹配，当且仅当两者的图结构相似度满足以下等式：

similarity_(i,p)＝max({dotproduct(h′,h)|h′∈N′_i,h∈N_p})；

其中max用于求得集合中的最大值；下标i，p表示图像编号；N,E分别表示节点特征集合与边特征集合，其下标为其对应图像序号，上标用于区分父子图结构；h′与h分别表示子图结构与父图结构中的某一节点特征。

本实施例设计了如下损失函数，来进行网络的训练，包括：分类损失和辅助损失。

其中，分类损失也就是交叉熵损失，本申请使用交叉熵损失作为训练时的监督信号，用于计算节点相似度的损失。

设batch size为B；此batch中的全体父图结构节点特征集合H＝H₁∪H₂∪…∪H_B＝{h_1,1,h_1,2,h_1,3,…,h_B,k-1,h_n,k}，全体子图结构节点特征集合为H′＝H′₁∪H′₂∪…∪H′_B＝{h′_1,1,h′_1,2,h′_1,3,…,h′_B,k-1,h′_B,k}；全体父图节点数量类为|H|＝C；

分类损失公式如下：

其中：

|*|表示集合中元素数量；y_ij,pq为观测符号：

为观测符号，取值仅为1或0，表示子图i中节点j与父图p中节点q是否构成正例子，1表示为正例，0表示为负例；

p_ij,pq为观测样本为子图i中节点j与父图p中节点q为正例的预测概率：

p_ij,pq＝similarity_(ij,pq)

也即二者的节点相似度；

h表示某节点特征，第一个下标为其对应图像的序号，第二个下标表示其对应图向中的对应实体对象的序号，上标用于区别父图与子图；H_i与H′_i表示某图的所有节点特征的集合，下标表示其对应图的序号，上标用于区分父图与子图。

辅助损失，对于通过子图节点特征所预测的相对位置及绝对位置，本申请施加以mse的回归损失，包括节点之间相对位置的回归损失和绝对位置的回归损失。

设batch size为B；此batch中的全体子图结构节点特征集合为H′＝H′₁∪H′₂∪…∪H′_B＝{h′_1,1,h′_1,2,h′_1,3,…,h′_B,k-1,h′_B,k}。

公式如下：

其中，|*|表示集合中元素数量；l1′_ij表示图i中节点j由h′_i,j作为输入时，相对位置预测头所预测的相对位置；l1_ij表示图i中节点j由数据集标签直接计算所得的相对位置；l2′_ij表示图i中节点j由h′_i,j作为输入时，绝对位置预测头所预测的绝对位置；l1′_ij表示图i中节点j由数据集标签直接计算所得的绝对位置；h表示某节点特征，其第一个下标为其对应图像的序号，第二个下标表示其对应图向中的对应实体对象的序号，上标用于区分父图与子图。

在给出了训练数据和损失函数的情况下，对网络模型进行训练，这是本领域比较成熟的技术，这里不再赘述。采用训练好的图神经网络，就可以得到查询图像的节点特征，以及节点之间相对和绝对位置。

步骤S3、根据图神经网络输出的节点特征，计算查询图像与图像数据库中图像的图结构相似度，向用户反馈查询得到的图像。

在训练好图神经网络之后，用户输入查询图像的图结构为{(N′₁,E′₁)}，图像数据库经过预处理后其图结构集合为{(N₁,E₁),(N₂,E₂),(N₃,E₃),…,(N_k,E_k)}。其中N表示节点特征集合，E表示边特征集合，下标用于表示从何图像上所构建图结构，上标用于区分用户输入的查询图结构与图像数据库中图像的图结构。首先使用已训练充分的图神经网络(特征提取模块)计算查询图像图结构的节点特征。然后使用上文已定义的图结构相似度方法，分别计算查询图像图结构与图像数据库中的所有图结构的相似度，向用户返回基于相似度的top k个图像作为查询得到图像，从而实现图像检索。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于图结构匹配的图像检索方法，其特征在于，所述基于图结构匹配的图像检索方法，包括：

2.根据权利要求1所述的基于图结构匹配的图像检索方法，其特征在于，所述初始节点特征为对象属性的独热编码。

3.根据权利要求1所述的基于图结构匹配的图像检索方法，其特征在于，所述边的特征为归一化后边的起始节点与终止节点的中心坐标之差。

4.根据权利要求1所述的基于图结构匹配的图像检索方法，其特征在于，所述计算查询图像与图像数据库中图像的相似度，包括：

5.根据权利要求4所述的基于图结构匹配的图像检索方法，其特征在于，所述图神经网络的损失函数包括分类损失和辅助损失，其中分类损失用于计算节点相似度的损失，所述辅助损失包括节点之间相对位置的回归损失和绝对位置的回归损失。