CN111694974A - 一种融合注意力机制的深度哈希车辆图像检索方法 - Google Patents
一种融合注意力机制的深度哈希车辆图像检索方法 Download PDFInfo
- Publication number
- CN111694974A CN111694974A CN202010532689.8A CN202010532689A CN111694974A CN 111694974 A CN111694974 A CN 111694974A CN 202010532689 A CN202010532689 A CN 202010532689A CN 111694974 A CN111694974 A CN 111694974A
- Authority
- CN
- China
- Prior art keywords
- vehicle image
- attention mechanism
- attention
- branch
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种融合注意力机制的深度哈希车辆图像检索方法,目的是为了提高车辆图像检索的准确率。由于数据量的增大和特征维数的增高所带来庞大计算量及获取特征向量中包含较多的干扰因素导致精确度低的问题。本发明针对该问题,引入注意力机制,提出了融合注意力机制的残差网络深度哈希模型,该模型借助注意力机制来识别车辆图像中多个目标对象的近似位置,以获得一个更为专注的特征表示。同时,本发明引入类别交叉熵损失函数来解决融入注意力机制的模型学习。
Description
技术领域
本发明涉及车辆图像检索领域,具体是一种融合注意力机制的深度哈希车辆图像检索方法。
背景技术
在车辆图像检索方法中,一般首先将车辆图像映射为特征向量,然后将特征向量编码为二值检索码。然而,获取的特征向量包含图像的全局信息,其中包括目标信息和杂乱的背景信息。在基于深度哈希方法的车辆图像检索研究中,研究人员往往希望哈希码编码的主要对象为车辆图像的目标信息而不是背景信息。同时,由于数据量的增大和特征维数的增高,所带来庞大计算量及获取特征向量中还包含较多的干扰因素导致精确度低的问题。
发明内容
为了提高车辆图像检索的准确率,本发明提出了一种融合注意力机制的深度哈希车辆图像检索方法,该方法借助注意力机制来识别车辆图像中目标对象的近似位置,获取一个专注的特征表示,进一步提高车辆图像检索的精度。
实现本发明目的的技术方案是:
一种融合注意力机制的深度哈希车辆图像检索方法,包括如下步骤:
(1)搭建基于Pytorch的深度学习车辆图像检索环境;
(2)数据预处理:对车辆图像数据集进行归一化,处理成网络模型需要的数据输入格式;
(3)车辆数据集划分:将车辆图像数据集按8:1:1的比例划分为训练集、验证集和检索测试集,从检索测试集中随机选取一批图片作为查询图片,其余图片作为图像数据库;
(4)模型构建:使用深度神经网络中的残差网络模型作为车辆图像检索模型,并在训练集上进行训练:
接收一个三元组的输入(ui,uj,mij),在残差网络的第四阶段和第五阶段之间添加一个注意力机制模块,借助注意力机制来识别车辆图像中多个目标对象的近似位置,获得一个专注的特征表示,然后添加一个哈希层生成定长的二值编码;另外,将成对车辆图像标签向量的余弦距离作为监督信息参加模型训练;同时,引入成对相似性损失函数以维持车辆图像之间的相似性,并且引入量化损失函数来控制二值编码的质量;
(5)特征提取:使用训练好的模型对车辆图像进行特征提取;
(6)测试模型:把步骤(3)挑选出来的图片作为查询图片,使用训练好的模型提取该车辆图像的特征,使用汉明距离与特征数据库中的所有特征进行相似度度量,并按照相似度大小返回检索的结果;最后用ACG和NDCG评价指标对返回的结果进行评价。
步骤(4)所述注意力机制模块分为主干分支和掩膜分支两个分支,其中,主干分支执行特征提取,给定输入x,主干分支输出T(x);掩膜分支执行特征选择,使用自上而下和自下而上的结构学习相同大小的掩膜M(x),这种结构模仿了快速前馈和反馈注意力过程,输出的掩膜分支作为主干输出的控制门,注意力模块H(x)的输出为公式(1):
Hi,c(x)=Mi,c(x)*Ti,c(x) (1)
其中i覆盖到空间中所有位置,c是通道的索引,整个结构可以进行端到端的训练。在注意力机制模块中,注意力掩膜分支不仅可在前向传播阶段做特征选择器,还可以在反向传播阶段用作梯度更新滤波器。在注意力掩膜分支中,输入特征的掩膜梯度为公式(2):
其中θ为掩膜分支的参数,φ为主干分支参数。然而,简单地堆叠注意力模块会导致性能明显的下降,首先,掩膜分支的取值范围为[0,1],使用注意力掩膜分支反复点乘会降低输入主干分支良好的表征能力,其次,增加注意力掩膜分支会增加模型训练的难度。与构建残差网络的思想类似,若注意力掩膜分支可以被构造为恒等映射,在不添加注意力掩膜分支的情况下,性能不应该有所下降。因此,利用残差学习思想,公式(1)注意力模块的输出可以改写成(3):
Hi,c(x)=(1+Mi,c(x))*Fi,c(x) (3)
当注意力掩膜分支M(x)的取值接近为0时,H(x)将近似于原始特征F(x)。基于残差学习思想,本发明将注意力机制与残差网络相结合,提出注意力残差模块。注意力残差模块与原始残差网络有所区别,在原始的残差网络中,残差学习表达式为Hi,c=x+Fi,c(x),其中Fi,c(x)为残差函数。而在注意力残差模块中,Fi,c(x)表示深度卷积网络生成的特征,注意力残差模块关键在于掩膜分支Mi,c(x),它可作为特征选择器,保留主干分支特征的优良性能同时抑制噪音。注意力残差模块不仅可以保持原始特征的良好属性,而且可以让原始特征绕过软掩膜分支并直接转发到下一层,以削弱掩膜分支的特征选择能力。在注意力残差模块中,存在着三个超参数p,t,r。超参数p表示在分裂成主干分支和掩膜分支之前预处理残差单元的数量。t表示主干分支残差单元的数量。r表示掩膜分支中相邻池化层之间的残差单元数量。本发明使用以下超参数设置{p=1,t=2,r=1},注意力掩膜分支残差单元通道数与对应主干分支的通道数相同。
步骤(5)所述的特征提取包括两个面:一个是对用户上传的查询图片进行特征提取,另一个是对车辆图片数据库进行特征提取构建车辆图像特征数据库。
步骤(6)所述选取两种评价指标对实验结果进行评价,分别为平均累加增益(ACG)和归一化折扣累加增益(NDCG)。ACG(平均累加增益)表示查询图像和前n个检索到的图像之间共享标签的平均数量,给定查询图像Iq,前n个返回图像的ACG得分由公式(5)来计算,其中C(q,i)为Iq和Ii共享标签的数量。
NDCG(归一化折扣累加增益)是一种用来衡量车辆图像检索任务排序结果质量的评价指标。给定一个查询图像,在返回结果的图像列表中某一特定位置k处累加的DCG得分计算公式定义为:
其中,reli为相似度级别,通过两幅图像之间共有的标签数量来衡量,最大值为查询图像与数据库中图像的最大的相同标签数,最小值为0。NDCG在k处的计算得分如公式(7)所示,其中Zk为DCG理想情况下的最大值,所以NDCG的取值范围为[0,1]。
本发明的有益效果是:本发明是在残差网络的基础之上,引入注意力机制,提出了融合注意力机制的残差网络深度哈希模型,该模型借助注意力机制来识别车辆图像中目标对象(前景)的近似位置,这样我们可以获得一个专注的特征表示,然后将此特征编码为二值编码,进一步提高车辆图像检索的精度。训练完成后调用该模型在车辆图像查询数据集上进行图像检索,并评估该模型的泛化能力及检索准确度。
附图说明
图1为本发明的融合注意力机制的深度哈希车辆图像检索图。
图2为本发明中的注意力模块。
图3为VehicleID车辆图像数据集在不同网络上的ACG评价指标。
图4为VehicleID车辆图像数据集在不同网络上的NDCG评价指标。
具体实施方式
下面着重详细地描述本发明的技术方案和技术效果。
(1)搭建基于Pytorch的深度学习车辆图像检索环境;
(2)数据预处理:本发明用了VehicleID车辆图像数据集,数据集进行归一化,处理成网络模型需要的输入格式;
(3)车辆数据集划分:将VehicleID车辆图像数据集按8:1:1的比例划分为训练集、验证集和检索测试集,从检索测试集中随机选取一批图片作为查询图片,其余图片作为图像数据库;
(4)构建融合注意力机制的深度哈希网络模型:本发明用的是深度神经网络中的残差网络模型作为本发明的车辆图像检索模型,并在训练集上进行训练,在残差网络的第四阶段和第五阶段之间添加一个注意力机制模块,借助注意力机制来识别车辆图像中多个目标对象的近似位置,获得一个专注的特征表示,然后添加一个哈希层生成定长的二值编码;另外,将成对车辆图像标签向量的余弦距离作为监督信息参加模型训练;
(5)车辆图像特征提取。使用训练好的模型对VehicleID车辆图像数据集进行特征提取。这里的特征提取包括两个面:一个是对用户上传的查询图片进行特征提取,另一个是对车辆图片数据库进行特征提取构建图像特征数据库。
(6)测试和评估车辆图像模型。
把步骤3挑选出来的图片作为查询图片,使用训练好的模型提取该车辆图像的特征,使用汉明距离与特征数据库中的所有特征进行相似度度量,并按照相似度大小返回检索的结果。最后用ACG和NDCG两种评价指标应用到本发明所提出的融合注意力机制模型和三种无监督哈希学习方法LSH,SH,ITQ及四种监督哈希方法ISDH,KSH,DHN,DLBHC上,根据不同的检索图片数量呈现出不同网络模型评价指标的变化,对返回的结果进行评价,从图3和图4中可以看出引入注意力机制的网络模型更好。
Claims (5)
1.一种融合注意力机制的深度哈希车辆图像检索方法,其特征是:包括如下步骤:
(1)搭建基于Pytorch的深度学习车辆图像检索环境;
(2)数据预处理:对车辆图像数据集进行归一化,处理成网络模型需要的数据输入格式;
(3)车辆数据集划分:将车辆图像数据集按8:1:1的比例划分为训练集、验证集和检索测试集,从检索测试集中随机选取一批图片作为查询图片,其余图片作为图像数据库;
(4)模型构建:使用深度神经网络中的残差网络模型作为车辆图像检索模型,并在训练集上进行训练:
接收一个三元组的输入(ui,uj,mij),在残差网络的第四阶段和第五阶段之间添加一个注意力机制模块,借助注意力机制来识别车辆图像中多个目标对象的近似位置,获得一个专注的特征表示,然后添加一个哈希层生成定长的二值编码;另外,将成对车辆图像标签向量的余弦距离作为监督信息参加模型训练;同时,引入成对相似性损失函数以维持车辆图像之间的相似性,并且引入量化损失函数来控制二值编码的质量;
(5)特征提取:使用训练好的模型对车辆图像进行特征提取;
(6)测试模型:把步骤(3)挑选出来的图片作为查询图片,使用训练好的模型提取该车辆图像的特征,使用汉明距离与特征数据库中的所有特征进行相似度度量,并按照相似度大小返回检索的结果;最后用ACG和NDCG评价指标对返回的结果进行评价。
2.根据权利要求1所述的融合注意力机制的深度哈希车辆图像检索方法,其特征是:步骤(4)所述注意力机制模块分为主干分支和掩膜分支两个分支,其中:
主干分支执行特征提取,给定输入x,主干分支输出T(x);
掩膜分支执行特征选择,使用自上而下和自下而上的结构学习相同大小的掩膜M(x),输出的掩膜分支作为主干输出的控制门,注意力模块H(x)的输出为公式(1):
Hi,c(x)=Mi,c(x)*Ti,c(x) (1)
其中i覆盖到空间中所有位置,c是通道的索引,整个结构可以进行端到端的训练;在注意力掩膜分支中,输入特征的掩膜梯度为公式(2):
其中θ为掩膜分支的参数,φ为主干分支参数,掩膜分支的取值范围为[0,1],利用残差学习思想,公式(1)注意力模块的输出可以改写成(3):
Hi,c(x)=(1+Mi,c(x))*Fi,c(x) (3)
当注意力掩膜分支M(x)的取值接近为0时,H(x)将近似于原始特征F(x);将注意力机制与残差网络相结合,提出注意力残差模块,在注意力残差模块中,Fi,c(x)表示深度卷积网络生成的特征,在注意力残差模块中,存在着三个超参数p,t,r,超参数p表示在分裂成主干分支和掩膜分支之前预处理残差单元的数量;t表示主干分支残差单元的数量;r表示掩膜分支中相邻池化层之间的残差单元数量。
3.根据权利要求2所述的融合注意力机制的深度哈希车辆图像检索方法,其特征是:所述注意力掩膜分支残差单元通道数与对应主干分支的通道数相同。
4.根据权利要求1所述的融合注意力机制的深度哈希车辆图像检索方法,其特征是:步骤(5)所述的特征提取包括两个面:一个是对用户上传的查询图片进行特征提取,另一个是对车辆图片数据库进行特征提取构建车辆图像特征数据库。
5.根据权利要求1所述的融合注意力机制的深度哈希车辆图像检索方法,其特征是:步骤(6)所述选取两种评价指标对实验结果进行评价,分别为平均累加增益(ACG)和归一化折扣累加增益(NDCG);ACG(平均累加增益)表示查询图像和前n个检索到的图像之间共享标签的平均数量,给定查询图像Iq,前n个返回图像的ACG得分由公式(5)来计算,其中C(q,i)为Iq和Ii共享标签的数量:
NDCG(归一化折扣累加增益)是一种用来衡量车辆图像检索任务排序结果质量的评价指标;给定一个查询图像,在返回结果的图像列表中某一特定位置k处累加的DCG得分计算公式定义为:
其中,reli为相似度级别,通过两幅图像之间共有的标签数量来衡量,最大值为查询图像与数据库中图像的最大的相同标签数,最小值为0;NDCG在k处的计算得分如公式(7)所示,其中Zk为DCG理想情况下的最大值,所以NDCG的取值范围为[0,1]:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010532689.8A CN111694974A (zh) | 2020-06-12 | 2020-06-12 | 一种融合注意力机制的深度哈希车辆图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010532689.8A CN111694974A (zh) | 2020-06-12 | 2020-06-12 | 一种融合注意力机制的深度哈希车辆图像检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111694974A true CN111694974A (zh) | 2020-09-22 |
Family
ID=72480447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010532689.8A Withdrawn CN111694974A (zh) | 2020-06-12 | 2020-06-12 | 一种融合注意力机制的深度哈希车辆图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111694974A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149643A (zh) * | 2020-11-09 | 2020-12-29 | 西北工业大学 | 基于多级注意力机制的面向无人机平台的车辆重识别方法 |
CN113128424A (zh) * | 2021-04-23 | 2021-07-16 | 浙江理工大学 | 基于注意力机制的图卷积神经网络动作识别方法 |
CN113269077A (zh) * | 2021-05-19 | 2021-08-17 | 青岛科技大学 | 基于改进门控网络和残差网络的水声通信信号调制方式识别方法 |
CN115512154A (zh) * | 2022-09-21 | 2022-12-23 | 东南大学 | 基于深度学习神经网络的高速公路车辆图像检索方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875076A (zh) * | 2018-07-10 | 2018-11-23 | 重庆大学 | 一种基于Attention机制和卷积神经网络的快速商标图像检索方法 |
CN109583502A (zh) * | 2018-11-30 | 2019-04-05 | 天津师范大学 | 一种基于对抗擦除注意力机制的行人再识别方法 |
CN110135461A (zh) * | 2019-04-18 | 2019-08-16 | 南开大学 | 基于分层注意感知深度度量学习的情感图像检索的方法 |
CN111125457A (zh) * | 2019-12-13 | 2020-05-08 | 山东浪潮人工智能研究院有限公司 | 一种深度跨模态哈希检索方法及装置 |
-
2020
- 2020-06-12 CN CN202010532689.8A patent/CN111694974A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875076A (zh) * | 2018-07-10 | 2018-11-23 | 重庆大学 | 一种基于Attention机制和卷积神经网络的快速商标图像检索方法 |
CN109583502A (zh) * | 2018-11-30 | 2019-04-05 | 天津师范大学 | 一种基于对抗擦除注意力机制的行人再识别方法 |
CN110135461A (zh) * | 2019-04-18 | 2019-08-16 | 南开大学 | 基于分层注意感知深度度量学习的情感图像检索的方法 |
CN111125457A (zh) * | 2019-12-13 | 2020-05-08 | 山东浪潮人工智能研究院有限公司 | 一种深度跨模态哈希检索方法及装置 |
Non-Patent Citations (1)
Title |
---|
王培雷: "基于残差网络的多标签图像检索方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149643A (zh) * | 2020-11-09 | 2020-12-29 | 西北工业大学 | 基于多级注意力机制的面向无人机平台的车辆重识别方法 |
CN113128424A (zh) * | 2021-04-23 | 2021-07-16 | 浙江理工大学 | 基于注意力机制的图卷积神经网络动作识别方法 |
CN113128424B (zh) * | 2021-04-23 | 2024-05-03 | 浙江理工大学 | 基于注意力机制的图卷积神经网络动作识别方法 |
CN113269077A (zh) * | 2021-05-19 | 2021-08-17 | 青岛科技大学 | 基于改进门控网络和残差网络的水声通信信号调制方式识别方法 |
CN115512154A (zh) * | 2022-09-21 | 2022-12-23 | 东南大学 | 基于深度学习神经网络的高速公路车辆图像检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111694974A (zh) | 一种融合注意力机制的深度哈希车辆图像检索方法 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN104866578B (zh) | 一种不完整物联网数据混合填充方法 | |
CN112084331A (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN110941734B (zh) | 基于稀疏图结构的深度无监督图像检索方法 | |
CN111368909B (zh) | 一种基于卷积神经网络深度特征的车标识别方法 | |
CN112258625B (zh) | 基于注意力机制的单幅图像到三维点云模型重建方法及系统 | |
CN112464004A (zh) | 一种多视角深度生成图像聚类方法 | |
CN106355210B (zh) | 基于深度神经元响应模式的绝缘子红外图像特征表达方法 | |
CN111210382A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN114282059A (zh) | 视频检索的方法、装置、设备及存储介质 | |
CN114332482A (zh) | 一种基于特征融合的轻量化目标检测方法 | |
CN115631513A (zh) | 基于Transformer的多尺度行人重识别方法 | |
CN113989405B (zh) | 一种基于小样本持续学习的图像生成方法 | |
CN117351542A (zh) | 一种面部表情识别方法及系统 | |
CN112084895A (zh) | 一种基于深度学习的行人重识别方法 | |
CN109448039B (zh) | 一种基于深度卷积神经网络的单目视觉深度估计方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN116824133A (zh) | 一种遥感图像智能解译方法 | |
CN117011515A (zh) | 基于注意力机制的交互式图像分割模型及其分割方法 | |
CN114972959B (zh) | 深度学习中样本生成和类内排序损失的遥感图像检索方法 | |
CN111507472A (zh) | 一种基于重要性剪枝的精度估计参数搜索方法 | |
CN116977763A (zh) | 模型训练方法、装置、计算机可读存储介质及计算机设备 | |
CN114565625A (zh) | 一种基于全局特征的矿物图像分割方法及装置 | |
CN114333069A (zh) | 对象的姿态处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200922 |