CN112036511A - 基于注意力机制图卷积神经网络的图像检索方法 - Google Patents

基于注意力机制图卷积神经网络的图像检索方法 Download PDF

Info

Publication number
CN112036511A
CN112036511A CN202011060588.1A CN202011060588A CN112036511A CN 112036511 A CN112036511 A CN 112036511A CN 202011060588 A CN202011060588 A CN 202011060588A CN 112036511 A CN112036511 A CN 112036511A
Authority
CN
China
Prior art keywords
neural network
data set
matrix
image retrieval
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011060588.1A
Other languages
English (en)
Other versions
CN112036511B (zh
Inventor
钱久超
王浩宇
朱肖光
阳展韬
程宇豪
邵华青
刘佩林
张凯渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MEDIASOC TECHNOLOGIES CO LTD
Shanghai Jiaotong University
Original Assignee
MEDIASOC TECHNOLOGIES CO LTD
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MEDIASOC TECHNOLOGIES CO LTD, Shanghai Jiaotong University filed Critical MEDIASOC TECHNOLOGIES CO LTD
Priority to CN202011060588.1A priority Critical patent/CN112036511B/zh
Publication of CN112036511A publication Critical patent/CN112036511A/zh
Application granted granted Critical
Publication of CN112036511B publication Critical patent/CN112036511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明提供一种基于注意力机制—图卷积网络以及课程学习的基于内容的图像检索方法,包括下列步骤:根据数据集的特征分布情况划分数据集,将数据集划分为简单、中等和困难以及不可使用四种字集,利用课程学习原理由易到难将四种子集输入到深度学习神经网络中。然后使用基于图卷积的深度学习网络模块提取图片的显著特征,构建图片的空间特征图并进行推理得到最终的特征表示。最后使用最终的特征表示进行关联匹配进行图像检索。

Description

基于注意力机制图卷积神经网络的图像检索方法
技术领域
本发明属于计算机视觉领域,涉及基于注意力机制图卷积神经网络的图像检索方法。
背景技术
基于内容的图像检索,即CBIR(Content-based image retrieval),是计算机视觉领域中关注大规模数字图像内容检索的研究分支。典型的CBIR系统,允许用户输入一张图片,以查找具有相同或相似内容的其他图片。这一概念于1992年由T.Kato提出的。他在论文中构建了一个基于色彩与形状的图像数据库,并提供了一定的检索功能进行实验。此后,基于图像特征提取以实现图像检索的过程以及CBIR这一概念,被广泛应用于各种研究领域,如统计学、模式识别、信号处理和计算机视觉。
相关研究已发展近20年,基于CBIR技术的图像检索系统,在建立图像数据库时,系统对输入的图像进行分析并分类统一建模,然后根据各种图像模型提取图像特征存入特征库,同时对特征库建立索引以提高查找效率。而用户在通过用户接口设置查询条件时,可以采用一种或几种的特征组合来表示,然后系统采用相似性匹配算法计算关键图像特征与特征库中图像特征的相似度,然后按照相似度从大到小的顺序将匹配图像反馈给用户。用户可根据自己的满意程度,选择是否修改查询条件,继续查询,以达到令人满意的查询结果。
图像相似度是指人类对图像内容认识上(即语义)的差异,导致通过计算查询样图和候选图像之间在视觉特征上存在距离。如果这个距离满足一定条件,我们则可以说这两图像相似度匹配。当然,如果能将语义特征和视觉特征结合起来,相似度匹配程度会更高,检索结果会更让人满意,但这是研究的一大难题。基于深度学习的图像检索神经网络虽然在一定程度上能够解决上述的一些问题,但是仍然无法建立起局部特征与局部特征之间的联系,这使得一些局部特征之间的关系需要使用很大的感受野获取,这意味着需要更深层次的网络以及极高的运算量增长。
发明内容:
本发明的目的在于建立一种可以更加可靠、更加准确的基于注意力机制—图卷积网络以及课程学习的基于内容的图像检索方法,主要包括将训练集根据特征向量的稀疏-稠密性划分为若干个子集,并按照由易到难的顺序传递进入嵌入了图卷积神经网络模块和注意力机制的深度学习神经网络中,对图片的局部显著特征之间的关系进行推理,并使用注意力机制加强这一推理,达到通过联系局部特征的关系关系来减轻不相关物体的影响与干扰、提高图像检索准确率、神经网络的鲁棒性。其技术实现方案主要分为以下几部分:
一种基于注意力机制-图卷积神经网络以及课程学习的基于内容的图像检索方法,包括以下步骤:
第一步:将数据集按照统一标准划分为训练集、校验集与测试集。利用预训练的深度学习神经网络提取待训练数据集的特征向量,根据特征向量的相似性与稀疏、稠密性进行数据集划分,具体步骤如下:
(1)去除神经网络的最后一层全连接层,将待训练的数据集传送入除去全连接层的神经网络中,使用resnet101深度学习神经网络提取待训练的数据集的特征向量。
(2)获得特征矩阵后,计算同一个查询的所有图片的特征向量的欧几里得距离,并得到特征——稀疏稠密矩阵。
(3)根据特征——稀疏稠密矩阵,矩阵中的每一个值代表两个图片之间欧几里得距离的大小Dis。获得欧几里得距离矩阵后,设定一个阈值T,对于欧几里得矩阵中的每一个值,低于阈值T的被认为两个图片之间的特征相差过大,以至于无法被神经网络轻松地识别为同一类物体:
Figure BDA0002712293890000021
对距离矩阵使用阈值T公式后,对这张图片的欧几里得矩阵中的每一个值(0或1)进行求和,得到这张图片的特征向量稀疏-稠密得分:
Figure BDA0002712293890000022
其中i,j代表同一个查询中的两张图片的特征表示,T是设定的阈值。得分较高的图片被认为与其他图片的特征向量距离较近,因此被划分为简单组。同理,将距离中等(得分中等)的图片划分为中等组,将距离较远(得分较低)的图片划分为困难组,将那些脱离了簇群过大(得分极低)的图片划分为不可识别组。不可识别组在训练过程中被移除。
第二步,将划分好的训练集按照由易到难的顺序传入基于图卷积神经网络的深度学习神经网络中,进行图像检索工作。在分步训练的过程中,损失函数为Triplet损失函数,训练中等难度的数据集时,损失函数是简单数据集与中等数据集两个损失函数按照3:7加权想加,而训练困难的数据集时,损失函数是简单、中等、困难三个函数的平均加权
第三步,使用图卷积神经网络与注意力机制对传入的图片进行显著特征的提取,提取最终的图片特征表示。图卷积神经网络的主要公式如下:
Fg=Wr(Ag Fv Wg)+Fv
其中Ag是(H×W)×(H×W)的邻接矩阵,Wr为残差结构矩阵,Fv是深度学习网络输出的矩阵,Wg为图卷积神经网络的权重矩阵。注意力机制的主要公式如下:
Fmask=σ(MLP(AvgPool(Fg)))
其中σ是激活函数,MLP是多层全连接层,AvgPool是平均池化层。
第四步,使用图片特征表示进行图像检索工作,提高基于内容的图像检索工作的准确度与鲁棒性,并提高神经网络对抗不相关物体干扰的能力。
附图说明
图1:基于课程学习的数据集分类示意图。
具体的实施方式:
如图1所示,本发明的目的在于建立一种可以更加可靠、更加准确的基于注意力机制—图卷积网络以及课程学习的基于内容的图像检索方法,主要包括将训练集根据特征向量的稀疏-稠密性划分为若干个子集,并按照由易到难的顺序传递进入嵌入了图卷积神经网络模块和注意力机制的深度学习神经网络中,对图片的局部显著特征之间的关系进行推理,并使用注意力机制加强这一推理,达到通过联系局部特征的关系关系来减轻不相关物体的影响与干扰、提高图像检索准确率、神经网络的鲁棒性。其技术实现方案主要分为以下几部分:
第一步:将数据集按照统一标准划分为训练集、校验集与测试集。利用预训练的深度学习神经网络提取待训练数据集的特征向量,根据特征向量的相似性与稀疏、稠密性进行数据集划分,具体步骤如下:
(1)去除神经网络的最后一层全连接层,将待训练的数据集传送入除去全连接层的神经网络中,使用resnet101深度学习神经网络提取待训练的数据集的特征向量。
(2)获得特征向量后,计算同一个查询中的所有图片的特征向量彼此间的欧几里得距离,根据欧几里得距离,得到同一个查询中图片的特征—稀疏稠密矩阵。
(3)根据特征——稀疏稠密矩阵,矩阵中的每一个值代表两个图片之间欧几里得距离的大小Dis。获得欧几里得距离矩阵后,设定一个阈值T,对于欧几里得矩阵中的每一个值,低于阈值T的被认为两个图片之间的特征相差过大,以至于无法被神经网络轻松地识别为同一类物体:
Figure BDA0002712293890000041
对距离矩阵使用阈值T公式后,对这张图片的欧几里得矩阵中的每一个值(0或1)进行求和,得到这张图片的特征向量稀疏-稠密得分:
Figure BDA0002712293890000042
其中i,j代表同一个查询中的两张图片的特征表示,T是设定的阈值。得分较高的图片被认为与其他图片的特征向量距离较近,因此被划分为简单组。同理,将距离中等(得分中等)的图片划分为中等组,将距离较远(得分较低)的图片划分为困难组,将那些脱离了簇群过大(得分极低)的图片划分为不可识别组。不可识别组在训练过程中被移除。
第二步,将划分好的训练集按照由易到难的顺序传入基于图卷积神经网络的深度学习神经网络中,进行图像检索工作。在分步训练的过程中,损失函数为Triplet损失函数,每一个训练批次(batch)的损失函数如下:
Figure BDA0002712293890000043
其中N是每一个训练批次的容量,fq是一个查询的global特征,fp表示正样本,fn表示负样本,m是预设定的偏置。训练简单难度的数据子集,损失函数按照如上所述即可。训练中等难度的数据集时,损失函数是简单数据集与中等数据集两个损失函数按照3:7加权想加,损失函数如下:
Ls+m=0.3Ls+0.7Lm
s,m分别代表简单数据子集、中等数据子集。而训练困难的数据集时,损失函数是简单、中等、困难三个函数的平均加权,具体如下,c代表困难数据子集:
Figure BDA0002712293890000051
第三步,使用图卷积神经网络与注意力机制对传入的图片进行显著特征的提取,提取最终的图片特征表示。图卷积神经网络的主要公式如下:
Fg=Wr(Ag Fv Wg)+Fv
其中Ag是(H×W)×(H×W)的邻接矩阵,Wr为残差结构矩阵,Fv是深度学习网络输出的矩阵,Wg为图卷积神经网络的权重矩阵。代表相似度与关联性的临接矩阵通过以下公式获得:
Ag(fi,fj)=φ(fi)η(fj),
其中φ(fi)=Wφfi,η(fj)=Wηfj作为特征的向量表示,权重Wφ,Wη可以通过反向传播进行学习。注意力模块机制的主要公式如下:
Fmask=σ(MLP(AvgPool(Fg)))
其中σ是激活函数,MLP是多层全连接层,AvgPool是平均池化层,Fmask是最终得到的注意力-特征表示。
第四步,使用图片特征表示进行图像检索工作,提高基于内容的图像检索工作的准确度与鲁棒性,并提高神经网络对抗不相关物体干扰的能力。

Claims (6)

1.基于注意力机制图卷积神经网络的图像检索方法,其特征在于:包括以下步骤:
将数据集按照统一标准划分为训练集、校验集与测试集,利用预训练的深度学习神经网络提取待训练数据集的特征向量,根据特征向量的相似性与稀疏、稠密性进行数据集划分,
将划分好的训练集按照由易到难的顺序传入基于图卷积神经网络的深度学习神经网络中,进行图像检索工作;在分步训练的过程中,损失函数为Triplet损失函数,训练中等难度的数据集时,损失函数是简单数据集与中等数据集两个损失函数按照3∶7加权想加,而训练困难的数据集时,损失函数是简单、中等、困难三个函数的平均加权;
使用图卷积神经网络与注意力机制对传入的图片进行显著特征的提取,提取最终的图片特征表示,图卷积神经网络的主要公式如下:
Fg=Wr(AgFvWg)+Fv
其中Ag是(H×W)×(H×W)的邻接矩阵,Wr为残差结构矩阵,Fv是深度学习网络输出的矩阵,Wg为图卷积神经网络的权重矩阵。注意力机制的主要公式如下:
Fmask=σ(MLP(AvgPool(Fg)))
其中σ是激活函数,MLP是多层全连接层,AvgPool是平均池化层;
使用图片特征表示进行图像检索工作,提高基于内容的图像检索工作的准确度与鲁棒性,并提高神经网络对抗不相关物体干扰的能力。
2.根据权利要求1所述的一种基于注意力机制图卷积神经网络的图像检索方法,其特征在于:
去除神经网络的最后一层全连接层,将待训练的数据集传送入除去全连接层的神经网络中,使用resnet101深度学习神经网络提取待训练的数据集的特征向量;
获得特征矩阵后,计算同一个查询的所有图片的特征向量的欧几里得距离,并得到特征——稀疏稠密矩阵;
根据特征——稀疏稠密矩阵,矩阵中的每一个值代表两个图片之间欧几里得距离的大小Dis,获得欧几里得距离矩阵后,设定一个阈值T,对于欧几里得矩阵中的每一个值,低于阈值T的被认为两个图片之间的特征相差过大,以至于无法被神经网络轻松地识别为同一类物体:
Figure FDA0002712293880000021
对距离矩阵使用阈值T公式后,对这张图片的欧几里得矩阵中的每一个值(0或1)进行求和,得到这张图片的特征向量稀疏-稠密得分:
Figure FDA0002712293880000022
其中i,j代表同一个查询中的两张图片的特征表示,T是设定的阈值,得分较高的图片被认为与其他图片的特征向量距离较近,因此被划分为简单组,同理,将距离中等的图片划分为中等组,将距离较远的图片划分为困难组,将那些脱离了簇群过大的图片划分为不可识别组,不可识别组在训练过程中被移除。
3.根据权利要求2所述的一种基于注意力机制图卷积神经网络的图像检索方法,其特征在于,将数据集按照统一标准划分为训练集、校验集与测试集,利用预训练的深度学习神经网络提取待训练数据集的特征向量,根据特征向量的相似性与稀疏、稠密性进行数据集划分,具体为,根据数据集经过深度学习神经网络得到的特征向量的欧几里得距离矩阵,将数据集划分为简单,中等,困难三个子集。
4.根据权利要求3所属的一种基于注意力机制图卷积神经网络的图像检索方法,其特征在于,将数据集由易到难输入深度神经网络中进行训练。
5.根据权利要求2所属的一种基于注意力机制图卷积神经网络的图像检索方法,其特征在于,注意力机制-图卷积神经网络在基于内容的图像检索中的应用。
6.根据权利要求2所属的一种基于注意力机制图卷积神经网络的图像检索方法,其特征在于所述步骤的数据集划分、损失函数的加权求和、图卷积神经网络以及注意力机制的公式说明。
CN202011060588.1A 2020-09-30 2020-09-30 基于注意力机制图卷积神经网络的图像检索方法 Active CN112036511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011060588.1A CN112036511B (zh) 2020-09-30 2020-09-30 基于注意力机制图卷积神经网络的图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011060588.1A CN112036511B (zh) 2020-09-30 2020-09-30 基于注意力机制图卷积神经网络的图像检索方法

Publications (2)

Publication Number Publication Date
CN112036511A true CN112036511A (zh) 2020-12-04
CN112036511B CN112036511B (zh) 2024-04-30

Family

ID=73573644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011060588.1A Active CN112036511B (zh) 2020-09-30 2020-09-30 基于注意力机制图卷积神经网络的图像检索方法

Country Status (1)

Country Link
CN (1) CN112036511B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598080A (zh) * 2020-12-30 2021-04-02 广州大学华软软件学院 一种基于注意力的宽度图卷积神经网络模型及其训练方法
CN114067215A (zh) * 2022-01-17 2022-02-18 东华理工大学南昌校区 基于节点注意力机制图神经网络的遥感图像检索方法
CN114581676A (zh) * 2022-03-01 2022-06-03 北京百度网讯科技有限公司 特征图像的处理方法、装置和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291945A (zh) * 2017-07-12 2017-10-24 上海交通大学 基于视觉注意力模型的高精度服装图像检索方法及系统
CN107515895A (zh) * 2017-07-14 2017-12-26 中国科学院计算技术研究所 一种基于目标检测的视觉目标检索方法与系统
WO2018137358A1 (zh) * 2017-01-24 2018-08-02 北京大学 基于深度度量学习的目标精确检索方法
CN110263874A (zh) * 2019-06-27 2019-09-20 山东浪潮人工智能研究院有限公司 一种基于注意力关系图学习的图像分类方法及装置
CN111078913A (zh) * 2019-12-16 2020-04-28 天津运泰科技有限公司 基于多视图卷积神经网络的三维模型检索方法
CN111198964A (zh) * 2020-01-10 2020-05-26 中国科学院自动化研究所 图像检索方法及系统
CN111310821A (zh) * 2020-02-11 2020-06-19 佛山科学技术学院 多视图特征融合方法、系统、计算机设备及存储介质
CN111506760A (zh) * 2020-03-30 2020-08-07 杭州电子科技大学 一种基于困难感知的深度集成度量图像检索方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018137358A1 (zh) * 2017-01-24 2018-08-02 北京大学 基于深度度量学习的目标精确检索方法
CN107291945A (zh) * 2017-07-12 2017-10-24 上海交通大学 基于视觉注意力模型的高精度服装图像检索方法及系统
CN107515895A (zh) * 2017-07-14 2017-12-26 中国科学院计算技术研究所 一种基于目标检测的视觉目标检索方法与系统
CN110263874A (zh) * 2019-06-27 2019-09-20 山东浪潮人工智能研究院有限公司 一种基于注意力关系图学习的图像分类方法及装置
CN111078913A (zh) * 2019-12-16 2020-04-28 天津运泰科技有限公司 基于多视图卷积神经网络的三维模型检索方法
CN111198964A (zh) * 2020-01-10 2020-05-26 中国科学院自动化研究所 图像检索方法及系统
CN111310821A (zh) * 2020-02-11 2020-06-19 佛山科学技术学院 多视图特征融合方法、系统、计算机设备及存储介质
CN111506760A (zh) * 2020-03-30 2020-08-07 杭州电子科技大学 一种基于困难感知的深度集成度量图像检索方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598080A (zh) * 2020-12-30 2021-04-02 广州大学华软软件学院 一种基于注意力的宽度图卷积神经网络模型及其训练方法
CN112598080B (zh) * 2020-12-30 2023-10-13 广州大学华软软件学院 基于注意力的宽度图卷积神经网络模型系统及训练方法
CN114067215A (zh) * 2022-01-17 2022-02-18 东华理工大学南昌校区 基于节点注意力机制图神经网络的遥感图像检索方法
CN114067215B (zh) * 2022-01-17 2022-04-15 东华理工大学南昌校区 基于节点注意力机制图神经网络的遥感图像检索方法
CN114581676A (zh) * 2022-03-01 2022-06-03 北京百度网讯科技有限公司 特征图像的处理方法、装置和存储介质
CN114581676B (zh) * 2022-03-01 2023-09-26 北京百度网讯科技有限公司 特征图像的处理方法、装置和存储介质

Also Published As

Publication number Publication date
CN112036511B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN108960140B (zh) 基于多区域特征提取和融合的行人再识别方法
CN107122809B (zh) 基于图像自编码的神经网络特征学习方法
Noh et al. Large-scale image retrieval with attentive deep local features
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN112036511B (zh) 基于注意力机制图卷积神经网络的图像检索方法
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN111597298A (zh) 一种基于深度对抗离散哈希学习的跨模态检索方法及装置
CN108446334B (zh) 一种无监督对抗训练的基于内容的图像检索方法
CN111339343A (zh) 图像检索方法、装置、存储介质及设备
CN111401303B (zh) 一种身份与视角特征分离的跨视角步态识别方法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN111079514A (zh) 一种基于clbp和卷积神经网络的人脸识别方法
CN112784921A (zh) 任务注意力引导的小样本图像互补学习分类算法
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN110414431B (zh) 基于弹性上下文关系损失函数的人脸识别方法及系统
CN113033345B (zh) 基于公共特征子空间的v2v视频人脸识别方法
US11908222B1 (en) Occluded pedestrian re-identification method based on pose estimation and background suppression
CN116543269B (zh) 基于自监督的跨域小样本细粒度图像识别方法及其模型
CN111241326A (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN115100694A (zh) 一种基于自监督神经网络的指纹快速检索方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
Li et al. Shoeprint image retrieval based on dual knowledge distillation for public security Internet of Things

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant