CN112528059A - 基于深度学习的交通目标图像检索方法、装置及可读介质 - Google Patents
基于深度学习的交通目标图像检索方法、装置及可读介质 Download PDFInfo
- Publication number
- CN112528059A CN112528059A CN202110179127.4A CN202110179127A CN112528059A CN 112528059 A CN112528059 A CN 112528059A CN 202110179127 A CN202110179127 A CN 202110179127A CN 112528059 A CN112528059 A CN 112528059A
- Authority
- CN
- China
- Prior art keywords
- image
- traffic target
- layer
- feature
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的交通目标图像检索方法、装置及可读介质。包括:采集不同种类交通目标图像,建立各类交通目标图像对应的交通目标标签,形成图像数据信息底库;将图像数据信息底库划分为训练数据、测试数据、查询数据,并对训练数据进行数据增广;设计深度学习模型、模型优化器、数据输入器、损失函数、深度学习模型优化策略,加速模型收敛,提高模型准确率;将图像数据输入所述的深度学习模型中,提取交通目标图像特征;将所述的交通目标图像特征与所述的图像数据库进行距离判定,并进行后处理得到输出结果,完成匹配;本发明能够提高交通目标图像检索准确率、鲁棒性,特别能够实现图像数据信息底库含有大量噪声的图像检索。
Description
技术领域
本发明涉及智能交通、计算机视觉领域,特别是涉及一种基于深度学习的交通目标图像检索方法、装置及可读介质。
背景技术
随着深度学习领域的不断发展,给智能交通领域带来了革命性的突破,比如无人驾驶、车辆跟踪等领域正在全面落地应用。交通目标图像检索是一种利用计算机视觉方法判断图像或者视频序列中是否存在特定目标的技术,通过给定一张摄像设备拍摄下的行人或车辆图像,旨在从大量图片、视频中搜索跨摄像机下的同一行人或车辆图像,将目标的不同姿态、位置、时间的图像相关联。交通目标图像数据采集方式主要通过道路摄像头、无人机和卫星设备,研究的对象的是交通目标整体特征,包括目标外观、姿态等等。在计算机视觉领域中,图像检索可以作为目标跟踪技术的补充,并相互作用,应用于更多场景。
发明内容
1、本发明的目的
本发明旨在提高交通目标图像检索准确率、鲁棒性。基于此,有必要针对上述技术问题,在拍摄图像含有大量噪声的情况下,实现一种跨摄像头的交通目标检索方法、装置。
本发明提出了一种基于深度学习的交通目标图像检索方法,包括以下步骤:
S100,采集不同种类交通目标图像,建立各类交通目标图像对应的交通目标标签:
使用one-hot编码方式对交通目标图像标签进行编码,将交通目标图像与对应标签信息构造交通目标图像数据信息底库;将图像数据信息底库划分为训练数据、测试数据、查询数据;其中训练数据中含有每一类的交通目标对应标签信息,测试数据与查询数据不含有交通目标的对应标签信息;
S200,对训练数据进行数据预处理,获取进行数据预处理后的交通目标图片;
S300,设计深度学习模型、模型优化器、数据输入器、损失函数、深度学习模型优化策略;图像检测模型的网络结构使用ResNest网络作为图像特征提取模块;
使用BiFPN融合由ResNest网络中不同模块提取的特征矩阵;
采用随机梯度下降法与三元组损失法构造损失函数优化器;
使用的交叉熵损失法计算不同交通目标之间的类别误差,将批归一化后的特征向
量输入到分类层中,分类层使用线性分类器进行分类,其模型接受输入参数大小为Bx2048
大小的特征向量,其中B为一个批次输入图片的数量,输出为2048乘上训练数据类别数量;
使用SoftMax将线性层输出进行计算,使其多个分类的预测值和为1,再通过交叉熵来计算
损失;通过交叉熵损失法计算每种交通目标图片信息的标签损失,记为,
使用三元组损失法对交通目标特征图信息细节进行区分,三元组损失法由一个三
元组<a,p,n>构成,需要三张交通目标图片作为输入,其中a:anchor表示交通目标图片对应
标签的基准样本,p:positive表示与anchor相同类别但不同的正样本,n:negative表示与
基准样本不同类别的负样本;利用生成的每个triplet,就能够创建出对应的正样本<a,p>
和负样本<a,n>;网络结构在进行训练的时候设置阈值来控制正负样本的距离在一定的
距离上,将正样本和负样本分开,先使用一个预设值对网络进行初始化训练,之后再根据测
试的结果对预设值的值进行适当的增大或缩小;设样本为x,f(x)为映射函数,整个训练集
的大小为N,则每个三元组的输入为、、,、为对应的正、
负样本案例,为与相同类别但样本不同的正样本案例,三元组损失法公式
为:
通过预热学习率与余弦退火结合动态调整学习率;通过预热学习率,即使得学习率逐步上升到设定的学习率,在使用梯度下降算法来优化目标函数的时候,当越来越接近Loss值的全局最小值时,学习率变得更小,从而使得模型接近全局最小值,而余弦退火通过余弦函数来降低学习率;余弦函数中随着x的增加余弦值,首先缓慢下降,然后加速下降,再次缓慢下降;
使用随机权重平均配合SGD损失函数优化器,改进模型训练过程的稳定性,
使用冻结模型法冻结特征提取模型,在训练时固定网络的底层,令固定网络对应子图的参数requires_grad为False;步骤S400,提取交通目标图像特征;
特征矩阵接收传入的缩放交通目标图像;卷积神经网络先使用卷积层对输入的交通目标图像进行下采样,将特征图输入到一个批归一化层,一个RELU激活层与一个最大值池化层,得到特征图;
对不同像素的特征图进行卷积;
步骤S500,将交通目标图像特征与图像数据库进行距离判定,并进行后处理得到输出结果,完成匹配;
使用重排序法和查询扩展法对计算出的特征距离结果进行后处理,其中重排序的方法,对每一个P值对应的Top-10查询结果相似,则视为匹配,即给定图像,通过将k个倒数相邻的目标编码为单个向量来计算k-reciprocal特征,使用原始距离与杰卡德距离组合来作为衡量两个集合相似度指标,并按照相似度进行重排序。
优选的,预处理即对图像重新调整分辨率,包括对图像进行一种或多种图像随机变换,其中图像变换有图像剪裁改变X轴、Y轴角度,提高/降低图像清晰度、明亮度、曝光度、图像饱和度,改变图像颜色、色调,旋转、翻转图像,图像像素平均化,自动对比度调整。
优选的,所述的步骤200,对训练数据进行数据预处理,获取进行数据预处理后的交通目标图片,其网络结构包括输入层、卷积层、特征图处理层、输出层;输入层接收图像矩阵大小为B*C*H*W,其中B为一个批次输入交通目标图像的数量,C为图像的通道数,使用RGB图像作为输入数据,H,W分别为图像的高和宽;卷积层使用ResNest网络作为特征图提取器,特征图处理层中的池化层使用最大值池化对特征图进行池化操作,即对于每一个通道的特征图的像素值选取其中最大值作为该通道的代表,从而得到一个N维向量表示;将池化后的特征向量输入到标准化层BN,使得结果的均值为0,方差为1。
优选的,所述的步骤300,深度学习模型的网络结构使用ResNest网络作为图像特征提取模块,其中ResNest中的4个层数目分别设置为3、4、6、3;使用池化层的最大值池化,对特征图进行池化操作,将池化后的特征向量输入到标准化层,使得输出信号各个维度的均值为0,方差为1。
优选的,所述的步骤300,图像特征提取模块采用深度学习方法提取所述交通目标图像特征信息,所述交通目标图像特征信息至少包括交通目标颜色、姿态。
优选的,所述的步骤400卷积神经网络层对128*128的特征图进行卷积,得到256*64*64的特征图;
卷积神经网络层对256*256的特征图进行卷积,得到512*64*64的特征图;
卷积神经网络层对512*512的特征图进行卷积,得到1024*64*64的特征图;
卷积神经网络层对128*128的特征图进行卷积,得到2048*64*64的特征图;
将2048*2048的特征图输入到一个最大值池化层和一个批归一化层,得到2048*1*1的特征向量,最后将特征向量输入到包含所有类别的线性分类器,进行分类。
优选的,所述的步骤500距离判定包括:
获取交通目标图像特征与图像数据信息底库中的每个交通目标图像特征;
计算交通目标图像特征与图像数据信息底库中的每个交通目标图像特征的相似度;
使用欧式、余弦距离将距离列表排名对应的图像数据信息底库中的交通目标图像匹配为图像检索信息。
本发明提出了一种检索装置,包括:
采集模块,用于采集交通目标图像,包括道路摄像头、无人机、卫星;
图像增广模块,输入图像在通道上的图像矩阵大小为B*C*H*W,其中B为一个批次输入交通目标图像的数量,C为图像的通道数,处理需求用于指示对输入图像进行数据预处理得到的目标特征图组进行目标处理,以得到目标图像;
特征提取模块,用于对输入图像与图像数据库输入到卷积模块进行特征提取,通过池化模块与归一化模块,得到特征图;对特征图将与图像数据库提取的特征图输入到后处理模块进行后处理得到输出结果,并计算分数排名得到Top-10的图像数据信息,将Top-10的图像数据信息进行结果。
优选的,包括:采集模块,图像处理装置中的摄像头或者I/O接口,处理模块为图像处理装置中的CPU或CPU配合其他处理器实现。
本发明一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时实现所述的方法步骤。
3、本发明所采用的有益效果
(1)本发明在生成数据阶段,通过均衡采样器均匀采样图像数据信息底库不同类别交通目标图像,将采样过后的交通目标图像输入到所述的深度学习模型中,保持了交通目标各类别之间在训练过程中模型的稳定性。
(2)本发明通过图像增广的方式,解决各类别图像数据不足的问题,大幅度提高模型精度。
(3)本发明特征提取阶段,采用深度学习的方法,设计一种端到端的深度学习模型,融合多层次特征,针对解决交通目标图像由于不用环境下所产生的规格,大小,照明等带来的问题,从而可以提高交通目标检索效率、模型精度,并且提升该模型在其他图像检索领域的延展性。
(4)本发明在匹配阶段为进一步提升识别的精度,采用后处理(post-process)技术对提取得到的特征矩阵进行处理,采用后处理技术能在不增加数据和多余操作的基础上提升性能。
(5)本发明通过输入不同分辨率的交通目标图像信息,使得卷积神经网络能够采样更准确的图像特征,提高模型精度。本发明通过大量实验,设计总结一系列提高模型精度的策略,并可适用于其他领域。
附图说明
图1为本发明实施例提供的交通目标检测方法的流程示意图;
图2为本发明实施例提供的卷积神经网络模块示意图;
图3为本发明实施例加入特征融合的卷积神经网络模块示意图;
图4为本发明实施例图像处理装置的结构示意图;
图5为本发明实施例特征提取模块403的结构示意图。
具体实施方式
下面结合本发明实例中的附图,对本发明实例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
下面将结合附图对本发明实例作进一步地详细描述。
实施例1
本发明提供的一种交通目标图像检索方法,可以解决交通目标图像检索准确率、鲁棒性低问题,在一个实施例中,如图1所示,包括以下步骤:
S100,采集不同种类交通目标图像,建立每类交通目标图像对应的交通目标标签,具体为:使用one-hot编码方式对交通目标图像标签进行编码,将交通目标图像与对应标签信息构造交通目标图像数据信息底库。
在本实施例中,采集道路交通摄像头拍摄下的行人与车辆图像,将采集到的图像建立一个图像数据信息底库,并将图像数据信息底库划分为训练数据、测试数据、查询数据。其中训练数据中含有每一类的交通目标对应标签信息,测试数据与查询数据不含有交通目标的对应标签信息,其中训练数据用于后序的特征提取,交通目标类别验证,测试数据与查询数据用于后序的模型测试。
S200,对训练数据进行数据预处理,获取进行数据预处理后的交通目标图片。
在本实施例中,对图像重新调整分辨率为256*256/384*384/512*512;
在本实施例中,对图像进行一种或多种图像随机变换,其中图像变换有图像剪裁改变X轴、Y轴角度,提高/降低图像清晰度、明亮度、曝光度、图像饱和度,改变图像颜色、色调,旋转、翻转图像,图像像素平均化,自动对比度调整等。
S300,设计深度学习模型、模型优化器、数据输入器、损失函数、深度学习模型优化策略,加速模型收敛,提高模型准确率;
在本发明的一个实施例中,图像检测模型的网络结构使用ResNest网络作为图像特征提取模块,该网络结构包括以下模块,如图2所示,其中包含输入层210,卷积层220,特征图处理层230,输出层240。输入层210接收图像矩阵大小为B*C*H*W,其中B(batch)为一个批次输入交通目标图像的数量,C(channel)为图像的通道数,本发明使用RGB图像作为输入数据,C设置为3,H(height),W(weight)分别为图像的高和宽。卷积层220使用ResNest网络作为特征图提取器,其中ResNest网络中的4个layer层221-224数目分别设置为3、4、6、3。特征图处理层230处理卷积层220提取的特征图,池化层231使用最大值池化对特征图进行池化操作,最大值池化指的是对于每一个通道的特征图的像素值选取其中最大值作为该通道的代表,从而得到一个N维向量表示。将池化后的特征向量输入到标准化层BN(批归一化)232,使得特征向量(输出信号各个维度)的均值为0,方差为1;将标准化后的结果输出到分类层233计算ID误差,最后输出层240输出结果。
在本发明的另一个实施例中,图像检测模型的网络结构使用ResNest网络作为图像特征提取模块,并且使用BiFPN融合由ResNest网络中不同模块提取的特征矩阵。该网络结构加入了BiFPN特征融合模块350,如图3所示,适用于解决有效的提取交通目标复杂场景下的特征表示,如多目标场景、遮挡场景、相似环境场景等,在复杂场景下提高检测精确度。
在本发明实施例中,本发明的模型优化器使用带有动量(momentum)的随机梯度下降法(stochastic gradient descent)构造损失函数优化器。随机梯度下降(SGD)也称为增量梯度下降,是一种迭代方法,用于优化可微分目标函数。该方法通过在小批量数据上计算损失函数的梯度而迭代地更新权重与偏置项。随机梯度下降在本发明实施例中相较于Adam优化器更快的达到收敛效果,并且生成较小的模型。使用动量(Momentum)的随机梯度下降法(SGD),主要思想是引入一个积攒历史梯度信息动量来加速SGD。
在本发明实施例中,本发明的图像检测模型使用的损失函数为交叉熵损失法和三元组损失法。
交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习
中表示真实概率分布与预测概率分布之间的差异。交叉熵的值越小,模型预测效果就越好。
交叉熵在分类问题中常常与SoftMax是标配,SoftMax将输出的结果进行处理,使其多个分
类的预测值和为1,再通过交叉熵来计算损失。通过交叉熵损失法计算每种交通目标图片信
息的标签损失,记为,将通过批归一化后的特征向量输入到分类层233中,在本发
明实施例中,分类层233使用线性分类器(Linear)进行分类,其模型接受输入参数大小为
Bx2048大小的特征向量,其中B为一个批次输入图片的数量,输出为2048乘上训练数据类别
数量。交叉熵公式如下,其中是对交通目标图片信息的标签进行了SoftMax操作,
公式为,为训练数据中标签信息,m为交通目标类别标
签数目;
在本发明实施例中,使用三元组损失法对交通目标图片信息细节进行区分,当两
个交通目标图片信息很相似的时候,三元组损失法对这两个差异性较小的输入向量可以学
习到更好的表示,从而在分类任务中表现出色。三元组损失法由一个三元组<a,p,n>构成,
需要三张交通目标图片作为输入,其中a:anchor表示交通目标图片对应标签的基准样本,
p:positive表示与anchor相同类别但不同的正样本,n:negative表示与基准样本不同类别
的负样本。利用生成的每个triplet,就能够创建出对应的正样本<a,p>和负样本<a,n>。本
发明实施例网络结构在进行训练的时候设置阈值来控制正负样本的距离在一定的距离
上,将正样本和负样本分开,通过优化保证嵌入空间中类别相同的样本点之间距离足够近,
而类别不同的样本点间距离足够远,即基准样本与负样本的距离要远远大于基准样本与正
样本间的距离。
本发明实施例在模型训练初期先使用一个较小的阈值对网络进行初始化训练,
之后再根据测试的结果对阈值进行适当的增大或缩小,这样可以在保证网络收敛的同时
让模型也能拥有一个较好的性能。设样本为x,f(x)为映射函数,整个训练集的大小为N,为对应的正,、负样本案例为与相同类别但不同的正样本案例,
三元组损失法公式为:
在一个实施例中,设计包含如下的一项或多项优化策略:
(1)通过预热学习率(warmup)与余弦退火结合动态调整学习率,通过先预热模型,即以一个很小的学习率逐步上升到设定的学习率,是模型的收敛更好,在本申请实施例中,初始学习率设置为0.00035,随后学习率上涨到0.001。其中学习率的更新,使用梯度下降算法来优化目标函数的时候,当越来越接近Loss值的全局最小值时,学习率应该变得更小来使得模型尽可能接近全局最小值,而余弦退火(Cosine annealing)可以通过余弦函数来降低学习率。余弦函数中随着x的增加余弦值,首先缓慢下降,然后加速下降,再次缓慢下降。
(2)使用随机权重平均(Stochastic Weight Averaging)配合SGD损失函数优化器改进模型训练过程的稳定性,随机权重平均的扩展方法可以达到高精度的贝叶斯模型平均的效果,同时对深度学习模型进行校准。即便是在低精度下训练的随机权重平均,也可以达到全精度下SGD训练的效果。
(3)使用冻结模型法,冻结特征提取模型,冻结的意思是在训练时如果想要固定网络的底层,那么可以令这部分网络对应子图的参数requires_grad为False。这样,在反向过程中就不会计算这些参数对应的梯度。
在本实施例中,具体如下,模型如图3所示,冻结特征提取模型(310-340)十个批次,在前十个批次中训练池化层360,批标准化层370,分类层380中的参数。步骤S400,提取交通目标图像特征。
在本发明的一个实施例中,如图3所示,特征矩阵300接收传入的缩放后为256*256*3/384*384*3/512*512*3的交通目标图像。卷积神经网络先使用一个卷积核为3*3步幅为2的卷积层对输入的交通目标图像进行下采样,将图像下采样到128*128,并将128*128的特征图输入到一个批归一化层,一个RELU激活层与一个最大值池化层,得到64*64*64的特征图。
卷积神经网络310层对128*128的特征图进行卷积,得到256*64*64的特征图。
卷积神经网络320层对256*256的特征图进行卷积,得到512*64*64的特征图。
卷积神经网络330层对512*512的特征图进行卷积,得到1024*64*64的特征图。
卷积神经网络340层对128*128的特征图进行卷积,得到2048*64*64的特征图。
将2048*2048的特征图输入到一个最大值池化层360和一个批归一化层370,得到2048*1*1的特征向量,最后将特征向量输入到包含所有类别的分类层380,进行分类。
步骤S500,将所述的交通目标图像特征与所述的图像数据库进行距离判定,并进行后处理得到输出结果,完成匹配;
在本实施例中,使用重排序法(re-ranking)和查询扩展法(query expansion)对计算出的特征距离结果进行后处理,其中重排序(Re-ranking)的方法,对每一个P值(probe)对应的Top-10查询结果相似,就有可能是真正的匹配。具体地,给定图像,通过将k个倒数相邻的目标编码为单个向量来计算k-reciprocal特征,使用原始距离与杰卡德距离组合来作为衡量两个集合相似度指标,并按照相似度进行重排序。
前述实施例介绍了交通目标图像检索方法,下面介绍实现交通目标图像检索方法装置的结构,并结合其结构进一步介绍该实现交通目标图像检索方法所执行的操作。交通目标图像检索装置即为执行设备。如图4所示,该交通目标图像检索装置400包括:
采集模块401,用于采集交通目标图像,可以为道路摄像头、无人机、卫星等;
图像增广模块402,输入图像在通道上的图像矩阵大小为B*C*H*W,其中B(batch)为一个批次输入交通目标图像的数量,C(channel)为图像的通道数,所述处理需求用于指示对所述输入图像进行数据预处理得到的目标特征图组进行目标处理以得到目标图像;
特征提取模块403的结构如图5所示,输入图像与图像数据库输入到如图5所示的卷积模块501进行特征提取,并进通过池化模块502与批归一化模块503,得到特征图;对所述特征图将与所述的图像数据库提取的特征图输入到后处理模块504进行后处理(post-process)得到输出结果,并计算分数排名得到Top-10的图像数据信息,将Top-10的图像数据信息进行结果。
采集模块401的功能可以由图像处理装置中的摄像头或者I/O接口实现。处理模块402-404的功能可以由图像处理装置中的CPU实现,也可以由CPU配合其他处理器(例如NPU、TPU、GPU等)实现。
本发明的交通目标图像检索方法、装置及可读介质,在交通目标数据集上进行评测。在本实施例中,使用的深度学习框架为Pytorch1.6,操作系统为Linux,实验所用到的GPU型号为NVIDIA Tesla V100,CUDA版本为10.2。特征提取模型使用Resnest-50,该网络的输入图像大小是256*256。使用SGD损失函数优化器,动量、衰减率和初始学习率分别设置为0、5、0.0005和0.00035。通过rank-1,rank-5,maP对模型准确度进行评价。其中rank-i表示为查询结果中前i张图片的准确度;maP反应了检索性能的精度与召回率;在该实施例中,使用re-ranking后处理后rank-1为78.82%,rank-5为90.10%。
实施例2:
在本发明实施例中,特征提取模型使用Resnest-50,该网络的输入图像大小是384*384。该实施例,经过后处理后rank-1为80.04%,rank-5为92.57%。
相比于实施例1,该实施例中,图片大小调整为384x384,后rank-1相较于实施例1约提升2%,说明图片大小的提高对训练精度提高有较明显的作用。
实施例3:
在实施例中,特征提取模型使用Resnest-50,该网络的输入图像大小是256*256,未经过后处理。其该实施例,经过后处理后rank-1为72.16%,rank-5为85.01%。
相比于实施例1,该实施例中,未经过后处理,rank-1约降低6%,说明后处理方法对训练精度提高有较明显的作用。
实施例4:
在实施例中,特征提取模型使用Resnest-50,该网络的输入图像大小是256*256,未使用数据增广。其该实施例,经过后处理后rank-1为76.21%,rank-5为98.33%。相比于实施例1,该实施例中,未经过后处理,rank-1约降低了2%,说明数据增广方法对训练精度提高有较明显的作用。
实施例5:
在实施例中,特征提取模型使用Resnest-50,该网络的输入图像大小是256*256,未使用随机权重平均。其该实施例,经过后处理后rank-1为rank-1为78.62%,rank-5为89.77%。相比于实施例1,rank-1约降低了0.2%,说明随机权重平均方法对训练精度提高有提高作用。
实施例6:
在实施例中,特征提取模型使用Resnest-50,该网络的输入图像大小是256*256,未使用模型冻结,相比于实施例1,该实施例中,rank-1约降低0.1%,说明模型冻结方法对训练精度提高有提高的作用。
实施例7:
在实施例中,特征提取模型使用Resnest-50,该网络的输入图像大小是256*256,未使用余弦退火算法动态调整学习率,相比于实施例1,该实施例中,rank-1约降低1%,说明用余弦退火算法对训练精度提高有提高的作用。
实施例8:
在实施例中,特征提取模型使用Resnest-50,该网络的输入图像大小是256*256,未使用动态调整学习率,相比于实施例1,该实施例中,rank-1约降低1%,说明用余弦退火算法对训练精度提高有提高的作用。
本发明的交通目标图像检索方法、装置及可读介质可用于其他场景的检索任务,比如行人检索,车辆检索等应用场景。
实施例9:
在实施例中,模型使用加入BiFPN特征融合网络,该网络的输入图像大小是256*256,挑选了图像底库中复杂场景下的交通目标图片进行训练,相比于实施例1,该实施例中,rank-1约提高3%,说明使用BiFPN特征融合网络对训练精度提高有提高的作用。
本发明的交通目标图像检索方法、装置可用于其他场景的检索任务,比如无人店行人检索、地下车库车辆检索等应用场景。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于深度学习的交通目标图像检索方法,其特征在于,包括以下步骤:
S100,采集不同种类交通目标图像,建立各类交通目标图像对应的交通目标标签:
使用one-hot编码方式对交通目标图像标签进行编码,将交通目标图像与对应标签信息构造交通目标图像数据信息底库;将图像数据信息底库划分为训练数据、测试数据、查询数据;其中训练数据中含有每一类的交通目标对应标签信息,测试数据与查询数据不含有交通目标的对应标签信息;
S200,对训练数据进行数据预处理,获取进行数据预处理后的交通目标图片;
S300,设计深度学习模型、模型优化器、数据输入器、损失函数、深度学习模型优化策略;图像检测模型的网络结构使用ResNest网络作为图像特征提取模块;
使用BiFPN融合由ResNest网络中不同模块提取的特征矩阵;
采用随机梯度下降法与三元组损失法构造损失函数优化器;
使用的交叉熵损失法计算不同交通目标之间的类别误差,将批归一化后的特征向量输
入到分类层中,分类层使用线性分类器进行分类,其模型接受输入参数大小为Bx2048大小
的特征向量,其中B为一个批次输入图片的数量,输出为2048乘上训练数据类别数量;使用
SoftMax将线性层输出进行计算,使其多个分类的预测值和为1,再通过交叉熵来计算损失;
通过交叉熵损失法计算每种交通目标图片信息的标签损失,记为,
使用三元组损失法对交通目标特征图信息细节进行区分,三元组损失法由一个三元组
<a,p,n>构成,需要三张交通目标图片作为输入,其中a:anchor表示交通目标图片对应标签
的基准样本,p:positive表示与anchor相同类别但不同的正样本,n:negative表示与基准
样本不同类别的负样本;利用生成的每个triplet,就能够创建出对应的正样本<a,p>和负
样本<a,n>;网络结构在进行训练的时候设置阈值来控制正负样本的距离在一定的距离
上,将正样本和负样本分开,先使用一个预设值对网络进行初始化训练,之后再根据测试的
结果对预设值的值进行适当的增大或缩小;设样本为x,f(x)为映射函数,整个训练集的大
小为N,则每个三元组的输入为、、,、为对应的正、负样
本案例,为与相同类别但样本不同的正样本案例,三元组损失法公式为:
通过预热学习率与余弦退火结合动态调整学习率;通过预热学习率,即使得学习率逐步上升到设定的学习率,在使用梯度下降算法来优化目标函数的时候,当越来越接近Loss值的全局最小值时,学习率变得更小,从而使得模型接近全局最小值,而余弦退火通过余弦函数来降低学习率;余弦函数中随着x的增加余弦值,首先缓慢下降,然后加速下降,再次缓慢下降;
使用随机权重平均配合SGD损失函数优化器,改进模型训练过程的稳定性,
使用冻结模型法冻结特征提取模型,在训练时固定网络的底层,令固定网络对应子图的参数requires_grad为False;
步骤S400,提取交通目标图像特征;
特征矩阵接收传入的缩放交通目标图像;卷积神经网络先使用卷积层对输入的交通目标图像进行下采样,将特征图输入到一个批归一化层,一个RELU激活层与一个最大值池化层,得到特征图;
对不同像素的特征图进行卷积;
步骤S500,将交通目标图像特征与图像数据库进行距离判定,并进行后处理得到输出结果,完成匹配;
使用重排序法和查询扩展法对计算出的特征距离结果进行后处理,其中重排序的方法,对每一个P值对应的Top-10查询结果相似,则视为匹配,即给定图像,通过将k个倒数相邻的目标编码为单个向量来计算k-reciprocal特征,使用原始距离与杰卡德距离组合来作为衡量两个集合相似度指标,并按照相似度进行重排序。
2.根据权利要求1所述的基于深度学习的交通目标图像检索方法,其特征在于,预处理即对图像重新调整分辨率,包括对图像进行一种或多种图像随机变换,其中图像变换有图像剪裁改变X轴、Y轴角度,提高/降低图像清晰度、明亮度、曝光度、图像饱和度,改变图像颜色、色调,旋转、翻转图像,图像像素平均化,自动对比度调整。
3.根据权利要求1所述的基于深度学习的交通目标图像检索方法,其特征在于,所述的步骤200,对训练数据进行数据预处理,获取进行数据预处理后的交通目标图片,其网络结构包括输入层、卷积层、特征图处理层、输出层;输入层接收图像矩阵大小为B*C*H*W,其中B为一个批次输入交通目标图像的数量,C为图像的通道数,使用RGB图像作为输入数据,H,W分别为图像的高和宽;卷积层使用ResNest网络作为特征图提取器,特征图处理层中的池化层使用最大值池化对特征图进行池化操作,即对于每一个通道的特征图的像素值选取其中最大值作为该通道的代表,从而得到一个N维向量表示;将池化后的特征向量输入到标准化层BN,使得结果的均值为0,方差为1。
4.根据权利要求1所述的基于深度学习的交通目标图像检索方法,其特征在于,所述的步骤300,深度学习模型的网络结构使用ResNest网络作为图像特征提取模块,其中ResNest中的4个层数目分别设置为3、4、6、3;使用池化层的最大值池化,对特征图进行池化操作,将池化后的特征向量输入到标准化层,使得输出信号各个维度的均值为0,方差为1。
5.根据权利要求4所述的基于深度学习的交通目标图像检索方法,其特征在于,所述的步骤300,图像特征提取模块采用深度学习方法提取所述交通目标图像特征信息,所述交通目标图像特征信息至少包括交通目标颜色、姿态。
6.根据权利要求1所述的基于深度学习的交通目标图像检索方法,其特征在于,所述的步骤400卷积神经网络层对128*128的特征图进行卷积,得到256*64*64的特征图;
卷积神经网络层对256*256的特征图进行卷积,得到512*64*64的特征图;
卷积神经网络层对512*512的特征图进行卷积,得到1024*64*64的特征图;
卷积神经网络层对128*128的特征图进行卷积,得到2048*64*64的特征图;
将2048*2048的特征图输入到一个最大值池化层和一个批归一化层,得到2048*1*1的特征向量,最后将特征向量输入到包含所有类别的线性分类器,进行分类。
7.根据权利要求1所述的基于深度学习的交通目标图像检索方法,其特征在于,所述的步骤500距离判定包括:
获取交通目标图像特征与图像数据信息底库中的每个交通目标图像特征;
计算交通目标图像特征与图像数据信息底库中的每个交通目标图像特征的相似度;
使用欧式、余弦距离将距离列表排名对应的图像数据信息底库中的交通目标图像匹配为图像检索信息。
8.一种如权利要求1-7任一所述的交通目标图像检索方法的检索装置,其特征在于,包括:
采集模块,用于采集交通目标图像,包括道路摄像头、无人机、卫星;
图像增广模块,输入图像在通道上的图像矩阵大小为B*C*H*W,其中B为一个批次输入交通目标图像的数量,C为图像的通道数,处理需求用于指示对输入图像进行数据预处理得到的目标特征图组进行目标处理,以得到目标图像;
特征提取模块,用于对输入图像与图像数据库输入到卷积模块进行特征提取,通过池化模块与归一化模块,得到特征图;对特征图将与图像数据库提取的特征图输入到后处理模块进行后处理得到输出结果,并计算分数排名得到Top-10的图像数据信息,将Top-10的图像数据信息进行结果。
9.如权利要求8所述的检索系统,其特征在于,包括:采集模块,图像处理装置中的摄像头或者I/O接口,处理模块为图像处理装置中的CPU或CPU配合其他处理器实现。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述的计算机程序被处理器执行时实现如权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110179127.4A CN112528059A (zh) | 2021-02-08 | 2021-02-08 | 基于深度学习的交通目标图像检索方法、装置及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110179127.4A CN112528059A (zh) | 2021-02-08 | 2021-02-08 | 基于深度学习的交通目标图像检索方法、装置及可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112528059A true CN112528059A (zh) | 2021-03-19 |
Family
ID=74975584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110179127.4A Pending CN112528059A (zh) | 2021-02-08 | 2021-02-08 | 基于深度学习的交通目标图像检索方法、装置及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528059A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192646A (zh) * | 2021-04-25 | 2021-07-30 | 北京易华录信息技术股份有限公司 | 目标检测模型构建方法及不同目标间距离监控方法、装置 |
CN113239783A (zh) * | 2021-05-11 | 2021-08-10 | 广西科学院 | 基于拼图打乱式数据扰动机制的植物叶片识别系统 |
CN113256622A (zh) * | 2021-06-28 | 2021-08-13 | 北京小白世纪网络科技有限公司 | 基于三维图像的目标检测方法、装置及电子设备 |
CN113269136A (zh) * | 2021-06-17 | 2021-08-17 | 南京信息工程大学 | 一种基于triplet loss的离线签名验证方法 |
CN113688264A (zh) * | 2021-09-07 | 2021-11-23 | 深延科技(北京)有限公司 | 生物体重识别方法、装置、电子设备及存储介质 |
CN113918753A (zh) * | 2021-07-23 | 2022-01-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像检索方法及相关设备 |
CN114693995A (zh) * | 2022-04-14 | 2022-07-01 | 北京百度网讯科技有限公司 | 应用于图像处理的模型训练方法、图像处理方法和设备 |
CN115359447A (zh) * | 2022-08-01 | 2022-11-18 | 浙江有色地球物理技术应用研究院有限公司 | 公路隧道远程监控系统 |
CN115908374A (zh) * | 2022-12-14 | 2023-04-04 | 广州科盛隆纸箱包装机械有限公司 | 基于度量学习的瓦楞纸箱印刷图案匹配检测方法、系统及存储介质 |
CN116168348A (zh) * | 2023-04-21 | 2023-05-26 | 成都睿瞳科技有限责任公司 | 基于图像处理的安全监控方法、系统及存储介质 |
CN116313115A (zh) * | 2023-05-10 | 2023-06-23 | 浙江大学 | 基于线粒体动态表型和深度学习的药物作用机制预测方法 |
CN117576404A (zh) * | 2024-01-15 | 2024-02-20 | 之江实验室 | 基于图像大模型微调策略的语义分割系统、方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508663A (zh) * | 2018-10-31 | 2019-03-22 | 上海交通大学 | 一种基于多层次监督网络的行人重识别方法 |
CN110008842A (zh) * | 2019-03-09 | 2019-07-12 | 同济大学 | 一种基于深度多损失融合模型的行人重识别方法 |
CN110363204A (zh) * | 2019-06-24 | 2019-10-22 | 杭州电子科技大学 | 一种基于多任务特征学习的对象表示方法 |
CN110378301A (zh) * | 2019-07-24 | 2019-10-25 | 北京中星微电子有限公司 | 行人重识别方法及系统 |
CN110659589A (zh) * | 2019-09-06 | 2020-01-07 | 中国科学院自动化研究所 | 基于姿态和注意力机制的行人再识别方法、系统、装置 |
CN111553205A (zh) * | 2020-04-12 | 2020-08-18 | 西安电子科技大学 | 无车牌信息车辆重识别方法、系统、介质、视频监控系统 |
CN111709311A (zh) * | 2020-05-27 | 2020-09-25 | 西安理工大学 | 一种基于多尺度卷积特征融合的行人重识别方法 |
-
2021
- 2021-02-08 CN CN202110179127.4A patent/CN112528059A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508663A (zh) * | 2018-10-31 | 2019-03-22 | 上海交通大学 | 一种基于多层次监督网络的行人重识别方法 |
CN110008842A (zh) * | 2019-03-09 | 2019-07-12 | 同济大学 | 一种基于深度多损失融合模型的行人重识别方法 |
CN110363204A (zh) * | 2019-06-24 | 2019-10-22 | 杭州电子科技大学 | 一种基于多任务特征学习的对象表示方法 |
CN110378301A (zh) * | 2019-07-24 | 2019-10-25 | 北京中星微电子有限公司 | 行人重识别方法及系统 |
CN110659589A (zh) * | 2019-09-06 | 2020-01-07 | 中国科学院自动化研究所 | 基于姿态和注意力机制的行人再识别方法、系统、装置 |
CN111553205A (zh) * | 2020-04-12 | 2020-08-18 | 西安电子科技大学 | 无车牌信息车辆重识别方法、系统、介质、视频监控系统 |
CN111709311A (zh) * | 2020-05-27 | 2020-09-25 | 西安理工大学 | 一种基于多尺度卷积特征融合的行人重识别方法 |
Non-Patent Citations (2)
Title |
---|
程琦等: "基于分散注意力与路径增强特征金字塔的文本检测", 《激光与光电子学进展》 * |
缪学宁等: "《网络信息体系中数据链系统的建设与应用 2019年度数据链技术论坛论文集》", 31 May 2019, 哈尔滨工程大学出版社 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192646B (zh) * | 2021-04-25 | 2024-03-22 | 北京易华录信息技术股份有限公司 | 目标检测模型构建方法及不同目标间距离监控方法、装置 |
CN113192646A (zh) * | 2021-04-25 | 2021-07-30 | 北京易华录信息技术股份有限公司 | 目标检测模型构建方法及不同目标间距离监控方法、装置 |
CN113239783A (zh) * | 2021-05-11 | 2021-08-10 | 广西科学院 | 基于拼图打乱式数据扰动机制的植物叶片识别系统 |
CN113269136A (zh) * | 2021-06-17 | 2021-08-17 | 南京信息工程大学 | 一种基于triplet loss的离线签名验证方法 |
CN113269136B (zh) * | 2021-06-17 | 2023-11-21 | 南京信息工程大学 | 一种基于triplet loss的离线签名验证方法 |
CN113256622A (zh) * | 2021-06-28 | 2021-08-13 | 北京小白世纪网络科技有限公司 | 基于三维图像的目标检测方法、装置及电子设备 |
CN113918753A (zh) * | 2021-07-23 | 2022-01-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像检索方法及相关设备 |
CN113918753B (zh) * | 2021-07-23 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像检索方法及相关设备 |
CN113688264A (zh) * | 2021-09-07 | 2021-11-23 | 深延科技(北京)有限公司 | 生物体重识别方法、装置、电子设备及存储介质 |
CN113688264B (zh) * | 2021-09-07 | 2024-06-07 | 深兰机器人(上海)有限公司 | 生物体重识别方法、装置、电子设备及存储介质 |
CN114693995B (zh) * | 2022-04-14 | 2023-07-07 | 北京百度网讯科技有限公司 | 应用于图像处理的模型训练方法、图像处理方法和设备 |
CN114693995A (zh) * | 2022-04-14 | 2022-07-01 | 北京百度网讯科技有限公司 | 应用于图像处理的模型训练方法、图像处理方法和设备 |
CN115359447B (zh) * | 2022-08-01 | 2023-06-20 | 浙江有色地球物理技术应用研究院有限公司 | 公路隧道远程监控系统 |
CN115359447A (zh) * | 2022-08-01 | 2022-11-18 | 浙江有色地球物理技术应用研究院有限公司 | 公路隧道远程监控系统 |
CN115908374A (zh) * | 2022-12-14 | 2023-04-04 | 广州科盛隆纸箱包装机械有限公司 | 基于度量学习的瓦楞纸箱印刷图案匹配检测方法、系统及存储介质 |
CN116168348B (zh) * | 2023-04-21 | 2024-01-30 | 成都睿瞳科技有限责任公司 | 基于图像处理的安全监控方法、系统及存储介质 |
CN116168348A (zh) * | 2023-04-21 | 2023-05-26 | 成都睿瞳科技有限责任公司 | 基于图像处理的安全监控方法、系统及存储介质 |
CN116313115B (zh) * | 2023-05-10 | 2023-08-15 | 浙江大学 | 基于线粒体动态表型和深度学习的药物作用机制预测方法 |
CN116313115A (zh) * | 2023-05-10 | 2023-06-23 | 浙江大学 | 基于线粒体动态表型和深度学习的药物作用机制预测方法 |
CN117576404A (zh) * | 2024-01-15 | 2024-02-20 | 之江实验室 | 基于图像大模型微调策略的语义分割系统、方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528059A (zh) | 基于深度学习的交通目标图像检索方法、装置及可读介质 | |
US11734786B2 (en) | Low- and high-fidelity classifiers applied to road-scene images | |
KR102030628B1 (ko) | Cnn 기반 차량 번호판 인식 방법 및 시스템 | |
CN110443818B (zh) | 一种基于涂鸦的弱监督语义分割方法与系统 | |
CN111191583B (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
Zhang et al. | DAGN: A real-time UAV remote sensing image vehicle detection framework | |
CN109598241B (zh) | 基于Faster R-CNN的卫星图像海上舰船识别方法 | |
US20170206434A1 (en) | Low- and high-fidelity classifiers applied to road-scene images | |
CN110175615B (zh) | 模型训练方法、域自适应的视觉位置识别方法及装置 | |
CN108446634B (zh) | 基于视频分析和定位信息结合的航空器持续跟踪方法 | |
CN109099929B (zh) | 基于场景指纹的智能车定位装置及方法 | |
CN111079847B (zh) | 一种基于深度学习的遥感影像自动标注方法 | |
CN108230330B (zh) | 一种快速的高速公路路面分割和摄像机定位的方法 | |
CN111626267B (zh) | 一种利用空洞卷积的高光谱遥感图像分类方法 | |
CN111339975A (zh) | 基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法 | |
CN113205026A (zh) | 一种基于Faster RCNN深度学习网络改进的车型识别方法 | |
CN114913498A (zh) | 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 | |
CN113963240A (zh) | 多源遥感图像融合目标综合检测方法 | |
CN111523493A (zh) | 一种针对雾天影像的目标检测算法 | |
CN114926693A (zh) | 基于加权距离的sar图像小样本识别方法及装置 | |
CN115457258A (zh) | 一种基于图像增强算法与改进YOLOv5的雾天船舶检测方法 | |
CN116740418A (zh) | 一种基于图重构网络的目标检测方法 | |
Gu et al. | A classification method for polsar images using SLIC superpixel segmentation and deep convolution neural network | |
Wang et al. | MashFormer: A novel multiscale aware hybrid detector for remote sensing object detection | |
CN112668421A (zh) | 一种基于注意力机制的无人机高光谱农作物快速分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210319 |
|
RJ01 | Rejection of invention patent application after publication |