CN109766752A - 一种基于深度学习的目标匹配和定位方法及系统、计算机 - Google Patents

一种基于深度学习的目标匹配和定位方法及系统、计算机 Download PDF

Info

Publication number
CN109766752A
CN109766752A CN201811436541.3A CN201811436541A CN109766752A CN 109766752 A CN109766752 A CN 109766752A CN 201811436541 A CN201811436541 A CN 201811436541A CN 109766752 A CN109766752 A CN 109766752A
Authority
CN
China
Prior art keywords
bounding box
image
satellite image
target image
satellite
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811436541.3A
Other languages
English (en)
Other versions
CN109766752B (zh
Inventor
梁继民
唐易平
牛闯
任胜寒
刘彬
胡海虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201811436541.3A priority Critical patent/CN109766752B/zh
Publication of CN109766752A publication Critical patent/CN109766752A/zh
Application granted granted Critical
Publication of CN109766752B publication Critical patent/CN109766752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明属于数据识别技术领域,公开了一种基于深度学习的目标匹配和定位方法及计算系统;在带有边界框标记的卫星图像数据库上,将标记的区域从原始卫星图像中截取并保存作为目标图像;对卫星图像与保存下来的目标图像进行预处理操作;将卫星图像与目标图像作为输入,对目标匹配与定位模型进行训练;对卫星图像与保存下来的目标图像进行预处理操作;使用目标匹配与定位模型同时接收输入的经过预处理的卫星图像与目标图像;将卫星图像中与目标最相似的区域用边界框标记出来。本发明在实时的条件下运行目标匹配算法,具有较高的实用性。通过一次模型的前向传播得到最终的结果,在复杂场景下能取得比模板匹配算法更好的结果。

Description

一种基于深度学习的目标匹配和定位方法及系统、计算机
技术领域
本发明属于数据识别技术领域,尤其涉及一种基于深度学习的目标匹配和定位方法及计算系统。
背景技术
目前,业内常用的现有技术是这样的:现代战争是以信息技术为先导的高科技战争,夺取信息优势是掌握战争主动权的关键。信息时代陆海空三军联合作战的重要特点是将“集中兵力”转变为“集中火力”,对导弹武器技术提出了更高的需求。智能化精确打击导弹武器系统应具备目标检测和识别率高、无盲区识别、大动态范围工作、抗干扰能力强的能力。图像的智能目标匹配与精确定位是决定导弹武器系统作战效能的核心技术之一,也是长期制约导弹武器系统信息化发展的瓶颈问题。现有导弹型号主要采用基于模板的目标匹配和定位的方法,其理论框架简单,运算速度快,能够满足一般的应用要求。但是模板匹配方法对于目标视角与视场变化、复杂背景以及干扰的鲁棒性较差,难以达到对导弹武器智能化和精确化的实战要求。模板匹配是指给定一张待检测图像和一张模板图像,在待检测图像中寻找并定位出模板图像的过程。具体实现方法通常是使用和模板图像大小相同的检测窗口在待检测图像中逐像素地滑动,得到检测窗口所覆盖的一系列子图像。对于每个子图像都利用某种评估方法来评价该子图像与模板图像的相似程度,选取出与模板图像相似程度最高的子图像,该子图像的坐标就是找到的目标的位置。如何选取计算相似程度的方法,直接关系着模板匹配算法的结果好坏。传统模板匹配的方法主要可分为两类:(1)基于灰度的模板匹配方法(2)基于图像特征的模板匹配方法。基于灰度的模板匹配方法是利用模板图像和检测窗口之间的灰度关系来表示它们的相似度,与模板图像相似度最高的检测窗口坐标即为最终的匹配结果。基于灰度的模板匹配通常有如下方法:(1)平方差匹配(2)归一化平方差匹配(3)相关匹配(4)归一化相关匹配(5)相关系数匹配(6)归一化相关系数匹配。上述六种方法理论上可以获得越来越精确的匹配结果,但是需要付出计算成本增加的代价,选取越复杂的方法会导致计算速度降低得越多。上述方法在灰度值发生变化(旋转、遮挡、噪声)的情况下,匹配结果往往会十分糟糕。基于图像特征的模板匹配方法首先是分别对检测窗口所选取的子图像与模板图像提取图像特征,然后再计算提取到的特征的相似度,计算特征相似度的方法常采用余弦距离、欧式距离等方法。但该方法要对大量的图像进行特征提取,计算量十分庞大,而且提取的特征好坏直接决定着该算法的速度与准确率,如何对不同的数据选取合适的图像特征是该方法需要仔细权衡的问题。
综上所述,现有技术存在的问题是:现有技术直接对模板图像与检测窗口所得到的图像中对应位置的灰度值进行操作。容易想到,如果对应位置灰度值因为某些原因发生很大的改变,例如光照变化等,平方差匹配,相关匹配等传统方法的计算结果会产生巨大波动,导致算法不能正常工作,匹配结果将受到很大的影响;通过增加检测窗口的方法使得灰度模板匹配方法准确率有所上升,对应的会增加计算成本;基于图像特征的模板匹配方法在很大程度上依赖于选择的图像特征的好坏,图像特征的性质也将直接影响匹配算法结果,且耗时较多,无法达到实时匹配。
解决上述技术问题的难度和意义:
本发明通过深度学习技术,将同时解决基于灰度的模板匹配方法对图像变化鲁棒性较差,基于图像特征的模板匹配方法选取特征难,提取特征慢的问题,提出一种通用的,实时的,鲁棒性较好的目标匹配方法。
发明内容
针对现有技术存在的问题,本发明提供了一种基于深度学习的目标匹配和定位方法及计算系统。
本发明是这样实现的,一种基于深度学习的目标匹配和定位方法,所述基于深度学习的目标匹配和定位方法包括以下步骤:
步骤一,在带有边界框标记的卫星图像数据库上,将标记的区域从原始卫星图像中截取并保存作为目标图像;对卫星图像与保存下来的目标图像进行预处理操作;将卫星图像与目标图像作为输入,对目标匹配与定位模型进行训练;
步骤二,对卫星图像与保存下来的目标图像进行预处理操作;使用目标匹配与定位模型同时接收输入的经过预处理的卫星图像与目标图像;将卫星图像中与目标最相似的区域用边界框标记出来。
进一步,所述基于深度学习的目标匹配和定位方法具体包括以下步骤:
步骤一、训练阶段:
(1)在带有边界框标记的卫星图像数据库上,将标记的区域从原始卫星图像中截取并保存作为目标图像;
(2)对卫星图像与保存下来的目标图像进行预处理操作;
(3)将卫星图像与目标图像作为输入,对目标匹配与定位模型进行训练;
步骤二、推理阶段:
(1)对卫星图像与保存下来的目标图像进行预处理操作;
(2)使用目标匹配与定位模型同时接收输入的经过预处理的卫星图像与目标图像:将预处理完成的卫星图像与目标图像输入模型;
(3)将卫星图像中与目标最相似的区域用边界框标记出来。
进一步,所述步骤一中的对卫星图像与保存下来的目标图像进行预处理操作的具体步骤如下:
(1)对输入卫星图像与目标图像做灰度化处理;
(2)在训练前对目标图像进行随机旋转操作,旋转角度d∈{0,10,20,…,350},旋转之后使用0像素填充空白,操作会使得模型最终可以学习到旋转不变性;
(3)在训练前从卫星图像上截取长宽分别为目标图像长宽的三倍的区域,使用该区域作为新的卫星图像;
(4)将卫星图像缩放为128×128大小,目标图像缩放为64×64大小;
(5)最后将预处理过的卫星图像与目标图像送进模型进行训练。
进一步,所述步骤一中的同时将卫星图像与目标图像作为输入,对目标匹配与定位模型进行训练的具体步骤如下:
(1)定义k个尺度不同的基础边界框(wi,hi),i∈(1,2,...,k),最终模型会在这k个边界框上进行坐标回归与预测,取k=5,定义如下5个基础边界框k1:(26.68,36.81),k2:(29,69),k3:(26.15,29.34),k4:(26,93),k5:(38.89,30.2);
k个边界框是通过K-means算法对数据集中标记边界框聚类得到,使用如下公式计算数据集中每个标记边界框与定义的标准边界框的距离:
d(box,center)=1-IOU(box,center);
其中,IOU代表两个边界框的重叠率,box代表数据集中每个标记边界框,center代表聚类中心,定义好的标准边界框;
(2)使用同一个特征提取网络对预处理之后的卫星图像与目标图像进行特征提取;
(3)将卫星图像的特征经过一层卷积操作得到输出为c通道的特征图,在取c=128;
(4)将目标图像的特征经过一层卷积操作得到输出为(5×k+1)×c通道的特征图,在该实施例中即生成3328通道的特征图;
(5)将得到的目标图像的特征与卫星图像的特征做分组互相关操作,得到位置信息图,该位置信息图通道数为5×k+1;
(6)通过上述得到的位置信息图进行坐标的回归与预测,具体步骤如下:
1)将5×k+1(26)个通道的位置信息图中第一个通道作为相似度图S,即代表每个不同的位置与目标图像的相似程度;
2)通过已经标记好的边界框得到与相似度图S相同大小的矩阵G,通过下面的式子计算出标记边界框中心点在矩阵G上的位置:
其中w,h表示矩阵G的长和宽,gx,gy表示标记边界框中心点在卫星图像上的坐标,floor()表示向下取整函数。则Gab=-1(a≠x,b≠y),Gab=1(a=x,b=y);
3)将如下公式作为相似度的损失函数:
losss=max(1-xy)2
其中,x表示相似度图S中的值,y表示由标记边界框生成的矩阵G中的值,将losss中对应G的值为-1的位置除以G的大小w·h,w,h表示矩阵G的长和宽;
4)位置信息图中剩下的5×k(25)个通道代表k(5)个标准边界框的坐标偏置B与重叠率C,其中每个标准边界框重叠率占据1个通道,即C将有k(5)个通道,代表该位置回归的边界框与标记边界框的重叠率,也可以理解为每个回归边界框的置信度;每个标准边界框的坐标偏置B占据4个通道,即B将有4×k(20)个通道,表示该标准边界框的坐标信息:代表中心点相对标准边界框左上角在x轴上的偏移tx,代表中心点相对标准边界框左上角在y轴上的偏移ty,代表标记边界框宽度相对标准边界框宽度的倍数tw,代表标记边界框高度相对标准边界框高度的倍数th;得到需要的值:
bc=σ(tc);
bx=σ(tx)+cx
by=σ(ty)+cy
其中σ表示sigmoid函数;tc代表重叠率图C的值,通过sigmoid函数限制输出值,bc∈(0,1);tx,ty,tw,th代表坐标偏置B的值,同样通过sigmoid函数限制tx,ty的输出值;cx,cy代表在不同的标准边界框位置信息图上的位置(x∈{0,1,2,...,w-1},y∈{0,1,2,...h-1});pw,ph代表之前定义好的标准边界框的宽度和高度。通过以上信息,可以计算损失函数:
其中Cxy表示在x,y位置上bc的值,GCxy表示在x,y位置上标准边界框与标记边界框在中心坐标相同情况下的最大重叠率。Bxy表示在x,y)位置上σ(tx),σ(tx),tw,th的值,GBxy表示在x,y位置上通过标记边界框中心点坐标(bx,by),标记边界框长和宽bw,bh计算出的σ(tx),σ(ty),tw,th的值;
通过计算出上述相似图S,坐标偏置B与置信度C的损失函数:
loss=losss+lossb
通过梯度下降算法优化模型参数,直到模型收敛。
进一步,所述步骤二对卫星图像与保存下来的目标图像进行预处理操作的具体步骤如下:
第一步:将输入的卫星图像与目标图像进行灰度化处理;
第二步:将灰度化之后的卫星图像缩放为128×128大小,目标图像缩放为64×64大小。
进一步,所述步骤二将卫星图像中与目标最相似的区域用边界框标记出来的具体步骤如下:
第一步:定义k个尺度不同的基础边界框(wi,hi),i∈(1,2,...,k),最终模型会在这k个边界框上进行坐标回归与预测,取k=5,定义如下5个基础边界框k1:(26.68,36.81),(29,69),(26.15,29.34),(26,93),(38.89,30.2);
k个边界框是通过K-means算法对数据集中标记边界框聚类得到;使用如下公式计算数据集中每个标记边界框与定义的标准边界框的距离:
d(box,center)=1-IOU(box,center);
其中,IOU代表两个边界框的重叠率,box代表数据集中每个标记边界框,center代表聚类中心,即定义好的标准边界框;
第二步:使用同一个特征提取网络对预处理之后的卫星图像与目标图像进行特征提取;
第三步:将卫星图像的特征经过一层卷积操作得到输出为c通道的特征图,取c=128;
第四步:将目标图像的特征经过一层卷积操作得到输出为(5×k+1)×c通道的特征图,即生成3328通道的特征图;
第五步:将得到的目标图像的特征与卫星图像的特征做分组互相关操作,得到位置信息图,该位置信息图通道数为5×k+1(26);
第六步:通过上述得到的位置信息图进行坐标的回归与预测,具体步骤如下:
(1)将5×k+1(26)个通道的位置信息图中第一个通道作为相似度图S,即代表每个不同的位置与目标图像的相似程度;
(2)选取相似度图S中具有最大响应值的位置(x,y)作为模型最终输出边界框的中心点的粗略位置;
(3)在得到的(x,y)位置有剩余5×k(25)个通道,代表k个回归边界框的置信度与坐标偏置,选取在这k(5)个回归边界框代表的5个通道中选取第一个通道,即置信度C,将C中具有最大响应值的位置作为模型选取的回归边界框b;
(4)利用在得到的回归边界框b剩余的4个通道回归准确的边界框形状及位置,具体计算如下:
bx=σ(tx)+cx
by=σ(ty)+cy
其中tx,ty,tw,th代表回归边界框b剩余的4个通道的输出;cx,cy代表在(3)中得到的位置信息(x,y);pw,ph代表回归边界框b对应的标准边界框的长和宽;通过以上计算可以得到bx,by,bw,bh
(5)通过在(4)中得到的bx,by,bw,bh可以计算出回归边界框在输出的128×128卫星图像上的位置及尺度信息,具体计算如下:
其中win,hin表示输入卫星图像的长和宽,在这里win=hin=128;wout,hout表示输出的长和宽,这里可以理解为相似度图S的长和宽;
(6)最终输出预测边界框在128×128的卫星图像中的坐标信息:(x,y,w,h)。
本发明的另一目的在于提供一种实现所述基于深度学习的目标匹配和定位方法的计算系统及其应用,所述基于深度学习的目标匹配和定位的计算系统及应用包括:
训练模块,在带有边界框标记的卫星图像数据库上,将标记的区域从原始卫星图像中截取并保存作为目标图像;对卫星图像与保存下来的目标图像进行预处理操作;将卫星图像与目标图像作为输入,对目标匹配与定位模型进行训练;
推理模块,对卫星图像与保存下来的目标图像进行预处理操作;使用目标匹配与定位模型同时接收输入的经过预处理的卫星图像与目标图像;将卫星图像中与目标最相似的区域用边界框标记出来。
综上所述,本发明的优点及积极效果为:本发明提出的基于深度学习的目标匹配和精确定位方法通过一对待检测图像与目标图像作为训练样本进行训练,训练得到的模型通过各种数据增强策略得到使用者想要的性质;本发明通过旋转目标图像进行训练,可以得到旋转不变性;通过缩放尺度进行训练可以得到尺度不变性;通过裁剪待检测图像进行训练,可以得到平移不变性等。本发明提出的方法能在实时的条件下运行目标匹配算法,具有较高的实用性。
由于本发明利用深度网络对卫星图像与目标图像进行特征提取,所以模型将会得到对旋转、平移、形变都具有较好鲁棒性的特征。传统通过滑窗进行模板匹配的方法解决旋转、尺度的手段是通过改变滑动窗口的性质来实现的,而本发明可以通过一次模型的前向传播得到最终的结果,且由于模型使用的深度特征,在复杂场景下能取得比模板匹配算法更好的结果。
附图说明
图1是本发明实施例提供的基于深度学习的目标匹配和定位方法流程图。
图2是本发明实施例提供的基于深度学习的目标匹配和定位的计算系统结构示意图;
图中:1、训练模块;2、推理模块。
图3是本发明实施例提供的训练和推理整体过程示意图。
图4是本发明实施例提供的训练目标图像示意图。
图5是本发明实施例提供的测试目标图像示意图。
图6是本发明实施例提供的基于深度学习的目标匹配和定位模型示意图。
图7是本发明实施例提供的在103对卫星图像与目标图像组成的测试数据集上验证旋转角度对本发明方法与现有基于灰度的模板匹配方法的对比图。
图8是本发明实施例提供的基于深度学习的目标匹配和定位效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术匹配结果会受到很大的影响,对应的会增加计算成本,耗时较多,无法达到实时匹配。本发明可以通过一次模型的前向传播得到最终的结果,且由于模型使用的深度特征,在复杂场景下能取得比模板匹配算法更好的结果。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于深度学习的目标匹配和定位方法包括以下步骤:
S101:在带有边界框标记的卫星图像数据库上,将标记的区域从原始卫星图像中截取并保存作为目标图像;对卫星图像与保存下来的目标图像进行预处理操作;将卫星图像与目标图像作为输入,对目标匹配与定位模型进行训练;
S102:对卫星图像与保存下来的目标图像进行预处理操作;使用目标匹配与定位模型同时接收输入的经过预处理的卫星图像与目标图像;将卫星图像中与目标最相似的区域用边界框标记出来。
如图2所示,本发明实施例提供的基于深度学习的目标匹配和定位系统包括:
训练模块1,在带有边界框标记的卫星图像数据库上,将标记的区域从原始卫星图像中截取并保存作为目标图像;对卫星图像与保存下来的目标图像进行预处理操作;将卫星图像与目标图像作为输入,对目标匹配与定位模型进行训练;
推理模块2,对卫星图像与保存下来的目标图像进行预处理操作;使用目标匹配与定位模型同时接收输入的经过预处理的卫星图像与目标图像;将卫星图像中与目标最相似的区域用边界框标记出来。
下面结合附图对本发明的应用原理作进一步的描述。
如图3所示,本发明实施例提供的基于深度学习的目标匹配和定位方法包括以下步骤:
步骤一、训练阶段:
(1)在带有边界框标记的卫星图像数据库上,将标记的区域从原始卫星图像中截取并保存作为目标图像;
(2)对卫星图像与保存下来的目标图像进行预处理操作;
(3)将卫星图像与目标图像作为输入,对目标匹配与定位模型进行训练;
步骤二、推理阶段:
(1)对卫星图像与保存下来的目标图像进行预处理操作;
(2)使用目标匹配与定位模型同时接收输入的经过预处理的卫星图像与目标图像:将预处理完成的卫星图像与目标图像输入模型;
(3)将卫星图像中与目标最相似的区域用边界框标记出来;
步骤一中的对卫星图像与保存下来的目标图像进行预处理操作的具体步骤如下:
(1)对输入卫星图像与目标图像做灰度化处理;
(2)在训练前对目标图像进行随机旋转操作,旋转角度d∈{0,10,20,…,350},旋转之后使用0像素填充空白,该操作会使得模型最终可以学习到旋转不变性;
(3)在训练前从卫星图像上截取长宽分别为目标图像长宽的三倍的区域,使用该区域作为新的卫星图像(待检测图像);
(4)将卫星图像缩放为128×128大小,目标图像缩放为64×64大小;
(5)最后将预处理过的卫星图像与目标图像送进模型进行训练;
步骤一中的同时将卫星图像与目标图像作为输入,对目标匹配与定位模型进行训练的具体步骤如下:
(1)定义k个尺度不同的基础边界框(wi,hi),i∈(1,2,...,k),最终模型会在这k个边界框上进行坐标回归与预测,在该实施例中取k=5,即定义如下5个基础边界框k1:(26.68,36.81),k2:(29,69),k3:(26.15,29.34),k4:(26,93),k5:(38.89,30.2);
在(1)中k个边界框是通过K-means算法对数据集中标记边界框聚类得到。与传统K-means不同的地方在于距离公式不再使用欧式距离,因为使用欧氏距离会让大的边界框比小的边界框产生更多的误差,而本发明能通过定义的标准边界框获得更高的重叠率,并且重叠率是与标准边界框的尺寸无关的,因此,使用如下公式计算数据集中每个标记边界框与定义的标准边界框的距离:
d(box,center)=1-IOU(box,center);
其中,IOU代表两个边界框的重叠率,box代表数据集中每个标记边界框,center代表聚类中心,即定义好的标准边界框。
(2)使用同一个特征提取网络对预处理之后的卫星图像与目标图像进行特征提取;
(3)将卫星图像的特征经过一层卷积操作得到输出为c通道的特征图,在该实施例中取c=128;
(4)将目标图像的特征经过一层卷积操作得到输出为(5×k+1)×c通道的特征图,在该实施例中即生成3328通道的特征图;
(5)将上述得到的目标图像的特征与卫星图像的特征做分组互相关操作,得到位置信息图,该位置信息图通道数为5×k+1,在该实施例中即26通道;
(6)通过上述得到的位置信息图进行坐标的回归与预测,具体步骤如下:
1)将5×k+1(26)个通道的位置信息图中第一个通道作为相似度图S,即代表每个不同的位置与目标图像的相似程度;
2)通过已经标记好的边界框可以得到与相似度图S相同大小的矩阵G,通过下面的式子计算出标记边界框中心点在矩阵G上的位置:
其中w,h表示矩阵G的长和宽,gx,gy表示标记边界框中心点在卫星图像上的坐标,floor()表示向下取整函数。则Gab=-1(a≠x,b≠y),Gab=1(a=x,b=y)。
3)将如下公式作为相似度的损失函数:
losss=max(1-xy)2
其中,x表示相似度图S中的值,y表示由标记边界框生成的矩阵G中的值,将losss中对应G的值为-1的位置除以G的大小w·h,w,h表示矩阵G的长和宽,以消除类别不平衡带来的影响;
4)位置信息图中剩下的5×k(25)个通道代表k(5)个标准边界框的坐标偏置B与重叠率C,其中每个标准边界框重叠率占据1个通道,即C将有k(5)个通道,代表该位置回归的边界框与标记边界框的重叠率,也可以理解为每个回归边界框的置信度;每个标准边界框的坐标偏置B占据4个通道,即B将有4×k(20)个通道,表示该标准边界框的坐标信息:代表中心点相对标准边界框左上角在x轴上的偏移tx,代表中心点相对标准边界框左上角在y轴上的偏移ty,代表标记边界框宽度相对标准边界框宽度的倍数tw,代表标记边界框高度相对标准边界框高度的倍数th。通过以下公式可以得到需要的值:
bc=σ(tc);
bx=σ(tx)+cx
by=σ(ty)+cy
其中σ表示sigmoid函数;tc代表重叠率图C的值,通过sigmoid函数限制输出值,即bc∈(0,1);tx,ty,tw,th代表坐标偏置B的值,同样通过sigmoid函数限制tx,ty的输出值;cx,cy代表在不同的标准边界框位置信息图上的位置(x∈{0,1,2,...,w-1},y∈{0,1,2,...,h-1});pw,ph代表之前定义好的标准边界框的宽度和高度。通过以上信息,可以计算损失函数:
其中Cxy表示在x,y位置上bc的值,GCxy表示在x,y位置上标准边界框与标记边界框在中心坐标相同情况下的最大重叠率。Bxy表示在x,y位置上σ(tx),σ(ty),tw,th的值,GBxy表示在x,y位置上通过标记边界框中心点坐标(bx,by),标记边界框长和宽bw,bh计算出的σ(tx),σ(ty),tw,th的值。
通过计算出上述相似图S,坐标偏置B与置信度C的损失函数:
loss=losss+lossb
即可通过梯度下降算法优化模型参数,直到模型收敛。
步骤二中的对卫星图像与保存下来的目标图像进行预处理操作的具体步骤如下:
第一步:将输入的卫星图像与目标图像进行灰度化处理;
第二步:将灰度化之后的卫星图像缩放为128×128大小,目标图像缩放为64×64大小;
步骤二中的将卫星图像中与目标最相似的区域用边界框标记出来的具体步骤如下:
第一步:定义k个尺度不同的基础边界框(wi,hi),i∈(1,2,...,k),最终模型会在这k个边界框上进行坐标回归与预测,在该实施例中取k=5,即定义如下5个基础边界框k1:(26.68,36.81),(29,69),(26.15,29.34),(26,93),(38.89,30.2);
在(1)中所示的k个边界框是通过K-means算法对数据集中标记边界框聚类得到。与传统K-means不同的地方在于距离公式不再使用欧式距离,因为使用欧氏距离会让大的边界框比小的边界框产生更多的误差,而本发明能通过定义的标准边界框获得更高的重叠率,并且重叠率是与标准边界框的尺寸无关的,因此,使用如下公式计算数据集中每个标记边界框与定义的标准边界框的距离:
d(box,center)=1-IOU(box,center);
其中,IOU代表两个边界框的重叠率,box代表数据集中每个标记边界框,center代表聚类中心,即定义好的标准边界框。
第二步:使用同一个特征提取网络对预处理之后的卫星图像与目标图像进行特征提取;
第三步:将卫星图像的特征经过一层卷积操作得到输出为c通道的特征图,在该实施例中取c=128;
第四步:将目标图像的特征经过一层卷积操作得到输出为(5×k+1)×c通道的特征图,即生成3328通道的特征图;
第五步:将得到的目标图像的特征与卫星图像的特征做分组互相关操作,得到位置信息图,该位置信息图通道数为5×k+1(26);
第六步:通过上述得到的位置信息图进行坐标的回归与预测,具体步骤如下:
(1)将5×k+1(26)个通道的位置信息图中第一个通道作为相似度图S,即代表每个不同的位置与目标图像的相似程度;
(2)选取相似度图S中具有最大响应值的位置(x,y)作为模型最终输出边界框的中心点的粗略位置;
(3)在步骤(2)中得到的(x,y)位置有剩余5×k(25)个通道,代表k个回归边界框的置信度与坐标偏置,选取在这k(5)个回归边界框代表的5个通道中选取第一个通道,即置信度C,将C中具有最大响应值的位置作为模型选取的回归边界框b;
(4)利用在得到的回归边界框b剩余的4个通道回归准确的边界框形状及位置,具体计算如下:
bx=σ(tx)+cx
by=σ(ty)+cy
其中tx,ty,tw,th代表回归边界框b剩余的4个通道的输出;cx,cy代表在(3)中得到的位置信息(x,y);pw,ph代表回归边界框b对应的标准边界框的长和宽;通过以上计算可以得到bx,by,bw,bh
(5)通过在(4)中得到的bx,by,bw,bh可以计算出回归边界框在输出的128×128卫星图像上的位置及尺度信息,具体计算如下:
其中win,hin表示输入卫星图像的长和宽,在这里win=hin=128;wout,hout表示输出的长和宽,这里可以理解为相似度图S的长和宽;
(6)最终输出预测边界框在128×128的卫星图像中的坐标信息:(x,y,w,h)。
下面结合实验对本发明的应用效果做详细的描述。
1.实验条件:
本发明实验的硬件条件为:一台普通计算机,Intel i7CPU,32G内存,一块英伟达GeForce GTX 980Ti显卡;软件平台:Xubuntu 14.04,Pytorch深度学习框架,python 3.5语言;本发明所使用的卫星图像来自Google Earth。
2.训练数据与测试数据:
本发明所使用的训练数据集包含328幅带有边界框标签的卫星图像,1469副目标图像,这些图像来自Google Earth。其中,目标图像由一类(ship)组成。
3.实验内容:
按照训练步骤,本发明使用训练数据集训练基于深度学习的目标匹配和定位模型。
按照推理步骤,在测试集上测试本发明的基于深度学习的目标匹配和定位模型的准确率;并在同样的测试数据集上测试现有技术的准确率;对比本发明的基于深度学习的目标匹配和定位模型与现有技术对目标发生旋转之后的匹配效果。
4.实验结果分析:
图7是本发明与现有技术在测试集上验证旋转角度造成的影响对比图。结果表明本发明对目标发生旋转有较好的稳定性,而现有技术在目标发生旋转后准确率会有较大起伏,甚至有的方法不能正常工作。因此,本发明更有实际应用价值。
图8是本发明的效果图,同时将一张卫星图像与目标图像输入基于深度学习的目标匹配和定位模型,模型最终输出一个边界框信息(x,y,w,h),通过该坐标在卫星图像上标记出预测的目标位置。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度学习的目标匹配和定位方法,其特征在于,所述基于深度学习的目标匹配和定位方法包括以下步骤:
(1)在带有边界框标记的卫星图像数据库上,将标记的区域从原始卫星图像中截取并保存作为目标图像;对卫星图像与保存下来的目标图像进行预处理操作;将卫星图像与目标图像作为输入,对目标匹配与定位模型进行训练;
(2)对卫星图像与保存下来的目标图像进行预处理操作;使用目标匹配与定位模型同时接收输入的经过预处理的卫星图像与目标图像;将卫星图像中与目标最相似的区域用边界框标记出来。
2.如权利要求1所述的基于深度学习的目标匹配和定位方法,其特征在于,所述基于深度学习的目标匹配和定位方法具体包括以下步骤:
(1)训练阶段:
1)在带有边界框标记的卫星图像数据库上,将标记的区域从原始卫星图像中截取并保存作为目标图像;
2)对卫星图像与保存下来的目标图像进行预处理操作;
3)将卫星图像与目标图像作为输入,对目标匹配与定位模型进行训练;
(2)推理阶段:
1)对卫星图像与保存下来的目标图像进行预处理操作;
2)使用目标匹配与定位模型同时接收输入的经过预处理的卫星图像与目标图像:将预处理完成的卫星图像与目标图像输入模型;
3)将卫星图像中与目标最相似的区域用边界框标记出来。
3.如权利要求2所述的基于深度学习的目标匹配和定位方法,其特征在于,所述步骤一中的对卫星图像与保存下来的目标图像进行预处理操作的具体步骤如下:
(1)对输入卫星图像与目标图像做灰度化处理;
(2)在训练前对目标图像进行随机旋转操作,旋转角度d∈{0,10,20,…,350},旋转之后使用0像素填充空白,操作会使得模型最终可以学习到旋转不变性;
(3)在训练前从卫星图像上截取长宽分别为目标图像长宽的三倍的区域,使用该区域作为新的卫星图像;
(4)将卫星图像缩放为128×128大小,目标图像缩放为64×64大小;
(5)最后将预处理过的卫星图像与目标图像送进模型进行训练。
4.如权利要求2所述的基于深度学习的目标匹配和定位方法,其特征在于,所述步骤一中的同时将卫星图像与目标图像作为输入,对目标匹配与定位模型进行训练的具体步骤如下:
(1)定义k个尺度不同的基础边界框(wi,hi),i∈(1,2,...,k),最终模型会在这k个边界框上进行坐标回归与预测,取k=5,定义如下5个基础边界框k1:(26.68,36.81),k2:(29,69),k3:(26.15,29.34),k4:(26,93),k5:(38.89,30.2);
k个边界框是通过K-means算法对数据集中标记边界框聚类得到,使用如下公式计算数据集中每个标记边界框与定义的标准边界框的距离:
d(box,center)=1-IOU(box,center);
其中,IOU代表两个边界框的重叠率,box代表数据集中每个标记边界框,center代表聚类中心,定义好的标准边界框;
(2)使用同一个特征提取网络对预处理之后的卫星图像与目标图像进行特征提取;
(3)将卫星图像的特征经过一层卷积操作得到输出为c通道的特征图,在取c=128;
(4)将目标图像的特征经过一层卷积操作得到输出为(5×k+1)×c通道的特征图,在该实施例中即生成3328通道的特征图;
(5)将得到的目标图像的特征与卫星图像的特征做分组互相关操作,得到位置信息图,该位置信息图通道数为5×k+1;
(6)通过上述得到的位置信息图进行坐标的回归与预测,具体步骤如下:
1)将5×k+1(26)个通道的位置信息图中第一个通道作为相似度图S,即代表每个不同的位置与目标图像的相似程度;
2)通过已经标记好的边界框得到与相似度图S相同大小的矩阵G,通过下面的式子计算出标记边界框中心点在矩阵G上的位置:
其中w,h表示矩阵G的长和宽,gx,gy表示标记边界框中心点在卫星图像上的坐标,floor()表示向下取整函数;则Gab=-1(a≠x,b≠y),Gab=1(a=x,b=y);
3)将如下公式作为相似度的损失函数:
losss=max(1-xy)2
其中,x表示相似度图S中的值,y表示由标记边界框生成的矩阵G中的值,将losss中对应G的值为-1的位置除以G的大小w·h,w,h表示矩阵G的长和宽;
4)位置信息图中剩下的5×k(25)个通道代表k(5)个标准边界框的坐标偏置B与重叠率C,其中每个标准边界框重叠率占据1个通道,即C将有k(5)个通道,代表该位置回归的边界框与标记边界框的重叠率,也可以理解为每个回归边界框的置信度;每个标准边界框的坐标偏置B占据4个通道,即B将有4×k(20)个通道,表示该标准边界框的坐标信息:代表中心点相对标准边界框左上角在x轴上的偏移tx,代表中心点相对标准边界框左上角在y轴上的偏移ty,代表标记边界框宽度相对标准边界框宽度的倍数tw,代表标记边界框高度相对标准边界框高度的倍数th;得到需要的值:
bc=σ(tc);
bx=σ(tx)+cx
by=σ(ty)+cy
其中σ表示sigmoid函数;tc代表重叠率图C的值,通过sigmoid函数限制输出值,bc∈(0,1);tx,ty,tw,th代表坐标偏置B的值,同样通过sigmoid函数限制tx,ty的输出值;cx,cy代表在不同的标准边界框位置信息图上的位置(x∈{0,1,2,...,w-1},y∈{0,1,2,...,h-1});pw,ph代表之前定义好的标准边界框的宽度和高度;通过以上信息,可以计算损失函数:
其中Cxy表示在x,y位置上bc的值,GCxy表示在x,y位置上标准边界框与标记边界框在中心坐标相同情况下的最大重叠率;Bxy表示在x,y位置上σ(tx),σ(ty),tw,th的值,GBxy表示在x,y位置上通过标记边界框中心点坐标(bx,by),标记边界框长和宽bw,bh计算出的σ(tx),σ(ty),tw,th的值;
通过计算出上述相似图S,坐标偏置B与置信度C的损失函数:
loss=losss+lossb
通过梯度下降算法优化模型参数,直到模型收敛。
5.如权利要求2所述的基于深度学习的目标匹配和定位方法,其特征在于,所述步骤二对卫星图像与保存下来的目标图像进行预处理操作的具体步骤如下:
(1)将输入的卫星图像与目标图像进行灰度化处理;
(2)将灰度化之后的卫星图像缩放为128×128大小,目标图像缩放为64×64大小。
6.如权利要求2所述的基于深度学习的目标匹配和定位方法,其特征在于,所述步骤二将卫星图像中与目标最相似的区域用边界框标记出来的具体步骤如下:
(1)定义k个尺度不同的基础边界框(wi,hi),i∈(1,2,...,k),最终模型会在这k个边界框上进行坐标回归与预测,取k=5,定义如下5个基础边界框k1:(26.68,36.81),(29,69),(26.15,29.34),(26,93),(38.89,30.2);
k个边界框是通过K-means算法对数据集中标记边界框聚类得到;使用如下公式计算数据集中每个标记边界框与定义的标准边界框的距离:
d(box,center)=1-IOU(box,center);
其中,IOU代表两个边界框的重叠率,box代表数据集中每个标记边界框,center代表聚类中心,即定义好的标准边界框;
(2)使用同一个特征提取网络对预处理之后的卫星图像与目标图像进行特征提取;
(3)将卫星图像的特征经过一层卷积操作得到输出为c通道的特征图,取c=128;
(4)将目标图像的特征经过一层卷积操作得到输出为(5×k+1)×c通道的特征图,即生成3328通道的特征图;
(5)将得到的目标图像的特征与卫星图像的特征做分组互相关操作,得到位置信息图,该位置信息图通道数为5×k+1(26);
(6)通过上述得到的位置信息图进行坐标的回归与预测,具体步骤如下:
1)将5×k+1(26)个通道的位置信息图中第一个通道作为相似度图S,即代表每个不同的位置与目标图像的相似程度;
2)选取相似度图S中具有最大响应值的位置(x,y)作为模型最终输出边界框的中心点的粗略位置;
3)在得到的(x,y)位置有剩余5×k(25)个通道,代表k个回归边界框的置信度与坐标偏置,选取在这k(5)个回归边界框代表的5个通道中选取第一个通道,即置信度C,将C中具有最大响应值的位置作为模型选取的回归边界框b;
4)利用在得到的回归边界框b剩余的4个通道回归准确的边界框形状及位置,具体计算如下:
bx=σ(tx)+cx
by=σ(ty)+cy
其中tx,ty,tw,th代表回归边界框b剩余的4个通道的输出;cx,cy代表在上一步3)中得到的位置信息(x,y);pw,ph代表回归边界框b对应的标准边界框的长和宽;通过以上计算可以得到bx,py,bw,bh
5)通过在上一步4)中得到的bx,by,bw,bh可以计算出回归边界框在输出的128×128卫星图像上的位置及尺度信息,具体计算如下:
其中win,hin表示输入卫星图像的长和宽,在这里win=hin=128;wout,hout表示输出的长和宽,这里可以理解为相似度图S的长和宽;
6)最终输出预测边界框在128×128的卫星图像中的坐标信息:(x,y,w,h)。
7.一种实现权利要求1所述基于深度学习的目标匹配和定位方法的基于深度学习的目标匹配和定位系统,其特征在于,所述基于深度学习的目标匹配和定位系统包括:
训练模块,在带有边界框标记的卫星图像数据库上,将标记的区域从原始卫星图像中截取并保存作为目标图像;对卫星图像与保存下来的目标图像进行预处理操作;将卫星图像与目标图像作为输入,对目标匹配与定位模型进行训练;
推理模块,对卫星图像与保存下来的目标图像进行预处理操作;使用目标匹配与定位模型同时接收输入的经过预处理的卫星图像与目标图像;将卫星图像中与目标最相似的区域用边界框标记出来。
8.一种应用权利要求1~6任意一项所述基于深度学习的目标匹配和定位方法的计算机。
CN201811436541.3A 2018-11-28 2018-11-28 一种基于深度学习的目标匹配和定位方法及系统、计算机 Active CN109766752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811436541.3A CN109766752B (zh) 2018-11-28 2018-11-28 一种基于深度学习的目标匹配和定位方法及系统、计算机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811436541.3A CN109766752B (zh) 2018-11-28 2018-11-28 一种基于深度学习的目标匹配和定位方法及系统、计算机

Publications (2)

Publication Number Publication Date
CN109766752A true CN109766752A (zh) 2019-05-17
CN109766752B CN109766752B (zh) 2023-01-03

Family

ID=66450237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811436541.3A Active CN109766752B (zh) 2018-11-28 2018-11-28 一种基于深度学习的目标匹配和定位方法及系统、计算机

Country Status (1)

Country Link
CN (1) CN109766752B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027621A (zh) * 2019-12-09 2020-04-17 上海扩博智能技术有限公司 图像识别模型的训练方法、系统、设备和存储介质
CN111274914A (zh) * 2020-01-13 2020-06-12 目骉资讯有限公司 一种基于深度学习的马匹速度计算系统及方法
CN112085731A (zh) * 2020-09-18 2020-12-15 深圳市易图资讯股份有限公司 基于卫星图的安全预警方法、装置、设备及存储介质
CN117078985A (zh) * 2023-10-17 2023-11-17 之江实验室 一种景象匹配方法、装置、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080166016A1 (en) * 2005-02-21 2008-07-10 Mitsubishi Electric Corporation Fast Method of Object Detection by Statistical Template Matching
WO2015163830A1 (en) * 2014-04-22 2015-10-29 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Target localization and size estimation via multiple model learning in visual tracking
US20170083792A1 (en) * 2015-09-22 2017-03-23 Xerox Corporation Similarity-based detection of prominent objects using deep cnn pooling layers as features
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
US20180130216A1 (en) * 2016-11-07 2018-05-10 Nec Laboratories America, Inc. Surveillance system using deep network flow for multi-object tracking
CN108230367A (zh) * 2017-12-21 2018-06-29 西安电子科技大学 一种对灰度视频中既定目标的快速跟踪定位方法
CN108629284A (zh) * 2017-10-28 2018-10-09 深圳奥瞳科技有限责任公司 基于嵌入式视觉系统的实时人脸跟踪和人脸姿态选择的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080166016A1 (en) * 2005-02-21 2008-07-10 Mitsubishi Electric Corporation Fast Method of Object Detection by Statistical Template Matching
WO2015163830A1 (en) * 2014-04-22 2015-10-29 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Target localization and size estimation via multiple model learning in visual tracking
US20170083792A1 (en) * 2015-09-22 2017-03-23 Xerox Corporation Similarity-based detection of prominent objects using deep cnn pooling layers as features
US20180130216A1 (en) * 2016-11-07 2018-05-10 Nec Laboratories America, Inc. Surveillance system using deep network flow for multi-object tracking
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
CN108629284A (zh) * 2017-10-28 2018-10-09 深圳奥瞳科技有限责任公司 基于嵌入式视觉系统的实时人脸跟踪和人脸姿态选择的方法及装置
CN108230367A (zh) * 2017-12-21 2018-06-29 西安电子科技大学 一种对灰度视频中既定目标的快速跟踪定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAZHI LUO 等: "Deep-learning-based face detection using iterative bounding-box regression", 《MULTIMEDIA TOOLS AND APPLICATIONS》 *
刘彬 等: "基于卷积神经网络的SAR 图像目标检测算法", 《电子与信息学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027621A (zh) * 2019-12-09 2020-04-17 上海扩博智能技术有限公司 图像识别模型的训练方法、系统、设备和存储介质
CN111274914A (zh) * 2020-01-13 2020-06-12 目骉资讯有限公司 一种基于深度学习的马匹速度计算系统及方法
CN111274914B (zh) * 2020-01-13 2023-04-18 目骉资讯有限公司 一种基于深度学习的马匹速度计算系统及方法
CN112085731A (zh) * 2020-09-18 2020-12-15 深圳市易图资讯股份有限公司 基于卫星图的安全预警方法、装置、设备及存储介质
CN117078985A (zh) * 2023-10-17 2023-11-17 之江实验室 一种景象匹配方法、装置、存储介质及电子设备
CN117078985B (zh) * 2023-10-17 2024-01-30 之江实验室 一种景象匹配方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN109766752B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
You et al. Pixel-level remote sensing image recognition based on bidirectional word vectors
CN109766752A (zh) 一种基于深度学习的目标匹配和定位方法及系统、计算机
Li et al. Cross-layer attention network for small object detection in remote sensing imagery
CN109740665A (zh) 基于专家知识约束的遮挡图像船只目标检测方法及系统
Gong et al. A spectral and spatial attention network for change detection in hyperspectral images
CN104574445A (zh) 一种目标跟踪方法及装置
Singh et al. A study of moment based features on handwritten digit recognition
Wei et al. Learning calibrated-guidance for object detection in aerial images
CN105893968A (zh) 基于深度学习的文本无关的端到端的笔迹识别方法
CN111291675B (zh) 一种基于深度学习的高光谱古绘画检测识别方法
CN107169485A (zh) 一种数学公式识别方法和装置
CN112164054A (zh) 基于知识蒸馏的图像目标检测方法和检测器及其训练方法
Liu et al. Fabric defects detection based on SSD
CN110084240A (zh) 一种文字提取系统、方法、介质和计算设备
CN110287354A (zh) 一种基于多模态神经网络的高分遥感图像语义理解方法
CN112257741B (zh) 一种基于复数神经网络的生成性对抗虚假图片的检测方法
Xue et al. Dual network structure with interweaved global-local feature hierarchy for transformer-based object detection in remote sensing image
Yu et al. Exemplar-based recursive instance segmentation with application to plant image analysis
CN109753887A (zh) 一种基于增强核稀疏表示的sar图像目标识别方法
Kang et al. Self-supervised spectral–spatial transformer network for hyperspectral oil spill mapping
Mridha et al. A thresholded Gabor-CNN based writer identification system for Indic scripts
Shi et al. Multifeature collaborative adversarial attack in multimodal remote sensing image classification
Yang et al. Foreground enhancement network for object detection in sonar images
Yao et al. An accurate box localization method based on rotated-RPN with weighted edge attention for bin picking
Li et al. PETDet: Proposal Enhancement for Two-Stage Fine-Grained Object Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant