CN109492580B - 一种基于全卷积网络的邻域显著性参照的多尺寸航拍图像定位方法 - Google Patents
一种基于全卷积网络的邻域显著性参照的多尺寸航拍图像定位方法 Download PDFInfo
- Publication number
- CN109492580B CN109492580B CN201811326593.5A CN201811326593A CN109492580B CN 109492580 B CN109492580 B CN 109492580B CN 201811326593 A CN201811326593 A CN 201811326593A CN 109492580 B CN109492580 B CN 109492580B
- Authority
- CN
- China
- Prior art keywords
- significance
- probability
- region
- neighborhood
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 239000011159 matrix material Substances 0.000 claims description 59
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 238000002360 preparation method Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000007619 statistical method Methods 0.000 claims description 8
- 238000005728 strengthening Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000003384 imaging method Methods 0.000 claims description 5
- 230000002787 reinforcement Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 150000003839 salts Chemical class 0.000 claims description 3
- 235000002566 Capsicum Nutrition 0.000 claims description 2
- 239000006002 Pepper Substances 0.000 claims description 2
- 235000016761 Piper aduncum Nutrition 0.000 claims description 2
- 235000017804 Piper guineense Nutrition 0.000 claims description 2
- 244000203593 Piper nigrum Species 0.000 claims description 2
- 235000008184 Piper nigrum Nutrition 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 9
- 230000000007 visual effect Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Abstract
本发明提供了一种基于全卷积网络的领域显著性参照的多尺寸航拍图像定位方法,用以解决多尺寸航拍图像的定位问题。该方法基于区域网格化的思想,将航拍图像的定位问题转化为一种图像分类问题,并提出了一个新的融合显著性特征的多通道全卷积网络模型,有效实现了一个多尺寸输入的滑动窗口分类器,最后提出了一种邻域显著性参照定位方法来得到多尺寸航拍图像的定位结果。
Description
技术领域
本发明提供了一种基于全卷积网络的邻域显著性参照的多尺寸航拍图像定位方法,涉及深度学习、计算机视觉技术领域。
背景技术
目前,无人机导航主要有全球卫星导航系统(Global Navigation SatelliteSystem,GNSS)、惯性导航系统(Inertial Navigation System,INS)等。GNSS以导航卫星为基站,能够提供精确的三维位置、速度和时间信息,其定位精度高,误差不随时间积累,但自主性能差,在战争环境下,往往采用强大的电子干扰手段导致他方导航系统不可用。INS利用载体内部的加速度计及陀螺仪,提供完备的导航信息,如位置、速度、姿态等,且具有数据更新率高、短期精度和稳定性好的优点,但是其缺点是导航误差会随时间积累,惯性器件的精度受到工艺水平和成本的限制,普通精度的纯惯性导航已经不能满足长航时导航的需要。单一导航方式难以满足对导航系统精确度及可靠性的要求,因此组合导航技术逐渐成为飞行器导航技术研究的主要方向,目前导航领域所研究的组合导航系统基本上是以INS为主,引入另一种辅助导航方式以修正惯导的累积误差,如GPS等。随着视觉传感器技术、计算机技术和人工智能技术的迅速发展,基于计算机视觉的匹配定位技术作为一种新的导航方式—视觉导航得到了广泛关注并开展研究。在视觉导航系统中,载体通过成像传感器感知环境,然后由计算机对图像进行分析,获取载体的位置和姿态等导航信息,进而完成对INS误差的修正,提高INS的导航精度。在GPS失效情况下,视觉导航作为有效的辅助导航,为无人机惯性导航系统实现长航时高精度导航提供新的方式和手段。
航拍图像定位是无人机视觉导航技术的关键点。在过去的方法中,大多利用景象匹配导航来实现航拍图像的绝对定位。景象匹配导航使用预先制备的包含精确地理信息的基准地图,利用一帧实拍图像与基准地图匹配来实现飞行器的绝对定位。首先需要选择适宜进行景象匹配的适配区或航路点来制作基准景象图存储在数据库中,然后应用图像搜索匹配技术来实现。匹配算法中基于特征点的匹配应用最为广泛,适合匹配的特征点有边缘特征、点特征和区域特征等。根据特征空间的不同,基于特征点的匹配方法分为基于特征点局部灰度区域描述符的匹配方法和基于特征点空间结构信息的匹配方法。基于特征点局部灰度区域描述符的匹配方法是指在匹配时提取以特征点位置为中心的局部区域灰度信息的某类特征作为描述符进行相似性度量,如提取局部区域128维特征向量作为描述子进行匹配的SIFT特征点匹配[1]等。基于特征点空间结构信息的匹配方法是指仅利用特征点的空间结构信息进行相似性度量,如基于边缘点集的Hausdorff距离匹配[2-5]、基于形状上下文特征匹配[6,7]等。由于视觉辅助导航的目的是为惯导提供实时的位置修正信息,因此航拍图像定位的关键是精确性、实时性和鲁棒性。而在景象匹配导航中,这些性能受适配区的选取、图像特征点集、匹配搜索策略、匹配算法等多方面的限制和影响。针对航拍图像具有的旋转性、大量不显著特征及不同时间下的成像差异,传统的手工特征不能很好地表达航拍图像的特性,导致传统的景象匹配导航很难达到满意效果,而深度学习技术鲜有应用。
过去几年,深度学习在解决计算机视觉、语音识别、自然语言处理等领域的问题上都表现出色。其中,卷积神经网络被广泛应用在图像中物体和区域的检测、分割和识别中,并取得了巨大成功。在2012年的ImageNet竞赛中,AlexNet[8]以惊人的成绩取得了第一名,其错误率接近第二名的一半。在2013年的ImageNet竞赛中,OverFeat[9]获得了极具竞争力的结果,它运用卷积网络有效实现了一个多尺寸输入的滑动窗口方法,可用于图像分类、目标定位和检测任务。但是AlexNet只支持单一尺寸图像的输入,无法直接应用于多尺寸图像的分类。
参考文献
[1]Lowe,D.G.Distinctive Image Features From Scale-invariant Keypoints[J].International Journal ofComputerVision,2004,60(2):91~110.
[2]Felix Hausdorff.Grundzüge der Mengenlehre[M].Grundzüge dermengenlehre.Von Veit,1914:A34-A35.
[3]Daniel P.Huttenlocher,Gregory A.Klanderman,WilliamJ.Rucklidge.Comparing images using the Hausdorffdistance[J].IEEE Transactionson Pattern Analysis and Machine Intelligence,1993,15(9):850~863.
[4]Dubuisson M P,Jain A K.A Modified Hausdorff Distance for ObjectMatching[C].Proceedings of the 12th International Conference on PatternRecognition,Jerusalem,Israel.1994:566~568.
[5]Zhao C,Shi W,Deng Y.A New Hausdorff Distance for Image Matching[J].Pattern Recognition Letters.2005,26(5):581~86.
[6]Belongie,Serge,Malik,et al.Shape context:a new descriptor forshape matching and object recognition[C].2000:831-837.
[7]Belongie S,Malik J,Puzicha J.Shape Matching and Object RecognitionUsing Shape Context[J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2002,24(4):509~522.
[8]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification withdeep convolutional neural networks[J].Communications oftheAcm,2012,60(2):2012.
[9]Sermanet P,Eigen D,Zhang X,et al.OverFeat:Integrated Recognition,Localization and Detection using Convolutional Networks[J].EprintArxiv,2013.
发明内容
本发明解决的技术问题是多尺寸航拍图像定位问题,克服了航拍图像旋转变化、特征提取不充分、实时性差等问题,提供了一种基于全卷积网络的领域显著性参照的多尺寸航拍图像定位方法,基于CNN善于学习图像高层次特征的特点,用以解决多尺寸航拍图像的定位问题。
本发明采用的技术方案包括以下三个步骤:
步骤(1):基于区域网格化的思想,采用利用飞行区域全部面积的地图制备方法,将飞行区域划分为大小相同的若干网格,每个网格代表一类区域,并采用数据增强的方法制作训练集;
步骤(2):构建融合显著性特征的多通道全卷积网络模型,称为Multi-channelAlexNet-FCN,实现了一个多尺寸输入的滑动窗口分类器;
步骤(3):基于步骤(1)的训练集,采用邻域显著性参照定位方法统计并筛选步骤(2)中多通道全卷积网络模型的输出,最终得到定位结果。所述邻域显著性参照定位方法包括四个部分:类别得票数统计方法、区域显著性权重计算方法,预测概率邻域显著性参照加强方法和联通区域分析方法。
进一步地,所述步骤(1)中,基于区域网格化的思想,采用利用飞行区域全部面积的地图制备方法,将飞行区域划分为大小相同的若干网格,相邻网格互不重叠且互相邻接,每个网格代表一类区域。
进一步地,所述步骤(1)中,所述数据增强方法为采用图像随机旋转、随机颜色抖动、高斯模糊和椒盐噪声等模拟无人机航拍图像在不同方位、时间和天气下的成像;其中所述图像随机旋转采用一种填充周围真实区域的旋转方法,分别以每张图像为中心,与每张图像周围网格图像拼接成大图,然后旋转此大图,并在旋转后的大图中央裁剪网格大小的图像作为旋转结果。
进一步地,所述步骤(2)中,所述的Multi-channel AlexNet-FCN是在AlexNet的基础上进行的优化,具体实现为:首先将AlexNet转换为全卷积形式的AlexNet-FCN,即保持AlexNet的前5个卷积层不变,将第6层全连接层转换为一个卷积核为6×6大小的卷积层,将第7层和第8层全连接层分别转换为一个卷积核为1×1大小的卷积层,并将第8层的输出个数改为网格区域类别数N;然后在AlexNet-FCN的第一层前增加一个卷积核为1×1大小的卷积层,用来将输入的4通道特征图降维为3通道;Multi-channel AlexNet-FCN的输入是混合显著性特征的4通道特征图,即3通道的彩色航拍图像加其单通道显著性特征图,其中显著性特征图采用Image Signature的方式生成。
进一步地,所述步骤(3)中,所述类别得票数统计方法是处理Multi-channelAlexNet-FCN的输出的第一步,对于全卷积网络输出的类别得分矩阵,将每个位置的N个通道中得分最高且大于阈值的类别作为一个预测分类结果;统计由类别得分矩阵得到的所有分类结果,得到若干个区域类别及判别个数,并用表示网格区域类别间的真实位置关系的投票矩阵来描述,投票矩阵中每个位置(i,j)的值等于(i,j)所代表的区域类别的预测个数,没被预测的类别值为0。由此得到的投票矩阵是权利要求1步骤(3)中的类别得票数统计方法的结果。
进一步地,所诉步骤(3)中,所述的区域显著性权重计算方法如下:将恰好包含所有网格区域的航拍图像混合显著性特征输入训练好的Multi-channel AlexNet-FCN,然后按步骤(3)中的类别得票数统计方法得到投票矩阵(vote map);已知vote map中每个位置(i,j)代表一个区域,对值为此区域判别个数Vi,j,计算区域显著性权重wi,j:
由此得到的所有网格区域显著性权重矩阵,即区域显著性权重计算方法的结果。
进一步地,所诉步骤(3)中,所述的预测概率邻域显著性参照加强方法通过网格区域及其邻域信息来处理投票矩阵;测试时,将大于224×224的航拍图像混合显著性特征输入训练好的Multi-channel AlexNet-FCN,然后按步骤(3)中的类别得票数统计方法得到投票矩阵(vote map);已知vote map中每个位置代表一个区域,对值为此区域判别个数Vi,j,计算其预测概率Pi,j:
得到一个与投票矩阵大小相同的概率矩阵;对每个位置(i,j)∈votemap有8个邻域,组成邻域预测概率的集合Gi,j={Pi-1,j-1,Pi-1,j,Pi-1,j+1,Pi,j-1,Pi,j+1,Pi+1,j-1,Pi+1,j,Pi+1,j+1和区域显著性权重计算方法得到的邻域显著性权重的集合Si,j=wi-1,j-1,wi-1,j,wi-1,j+1,wi,j-1,wi,j+1,wi+1,j-1,wi+1,j,wi+1,j+1},其中不在vote map中的邻域的概率和显著性权重均设置为0;则对根据其预测概率Pi,j及其8个邻域的预测概率Gi,j和显著性权重Si,j,计算其加强概率P′i,j:
最后标准化得到新的预测概率Pi,j:
由此得到的网格区域的预测概率矩阵,即预测概率邻域显著性参照加强方法的结果。
进一步地,所诉步骤(3)中所述的联通区域分析方法是基于最大投票思想的,按照预测概率邻域显著性参照加强方法得到的概率矩阵中所有不为0的位置组成若干连通区域,概率矩阵中拥有最大概率和的连通区域所包含位置的所属类别即为输入航拍图像的定位结果,并且按照联通区域中每个区域的概率高低排列定位结果的优先级,概率越高优先级越高;若不存在唯一的拥有最大概率和的连通区域,则对预测概率矩阵反复进行邻域显著性参照加强,直到得到唯一连通区域。
与现有技术相比,本发明的有益效果是:
(1)与传统景象匹配导航方法相比,首先本发明的区域网格化的地图制备方法利用了飞行区域的全部地理面积,避免了传统景象匹配导航中对适配区或航路点的选取所带来的影响;其次本发明将航拍图像定位问题转化为了一种图像分类问题,利用Multi-channel AlexNet-FCN滑动窗口分类器和邻域显著性参照定位方法直接得到定位结果,舍去了传统视觉导航方法中图像搜索匹配的步骤;再次本发明提出的基于融合显著性特征的多通道全卷积网络模型拥有比传统特征更强大的图像特征表达能力,邻域显著性参照定位方法充分利用区域邻域间的信息,使类别信息更为完备;最后,本发明支持GPU加速,大大提高了运算速度。
(2)与AlexNet相比,本发明的Multi-channel AlexNet-FCN首先将含有全连接层的AlexNet转化为一个全部是卷积层的全卷积网络,使一个只能输入单一尺寸图像的分类网络变为一个可以输入任意的不小于规定大小图像的滑动窗口分类器;其次通过在网络前增加降维卷积层,使得网络输入可以融合图像的显著性特征,增强了网络的图像特征表达能力。
(3)本发明步骤(3)中所述的区域显著性权重计算方法可以当做一种基于CNN的适配性分析或航路点选取的新方法,此方法可以一次性计算出所有区域的显著性权重,显著性权重越大的区域适配性越好。
(4)与传统滑动窗口方法每次要为输入的每个窗口计算整个流程相比,全卷积网络在以滑动方式应用时本质上是高效的,因为窗口们自然地共享重叠区域共有的计算,因此计算速度快。
附图说明
图1为Multi-channel AlexNet-FCN网络结构及输出处理示意图;
图2为本发明的基于全卷积网络的邻域显著性参照的多尺寸航拍图像定位方法总体流程图;
图3为数据增强中图像随机旋转示意图,左图为原始航拍图像,右图为对航拍图像采用的填充周围真实区域的旋转方法示意图,其中黑框内为旋转后的航拍图像;
图4为AlexNet-FCN网络结构示意图;
图5为邻域显著性参照定位方法流程图;
图6为类别得票数统计方法流程图;
图7为网格区域(i,j)与其8个邻域的相对位置关系示意图;
图8为概率矩阵示意图,左图为概率矩阵热力图,右图为概率矩阵三维曲线图。
具体实施方式
下面结合其他附图及具体实施方式进一步说明本发明。
如图1、2所示,本发明提供一种基于全卷积网络的领域显著性参照的多尺寸航拍图像定位方法,主要分为三个阶段:
(1)数据准备阶段
本发明基于于区域网格化的思想,采用利用飞行区域全部面积的地图制备方法,将飞行区域划分为大小相同的若干网格,每个网格大小为256×256且相邻网格互不重叠且互相邻接。按照以上方法,用网格化的某飞行区域的多个时间下的Google Earth卫星图像制作256×256大小的航拍图像数据集。数据增强方法采用了图像随机旋转、随机颜色抖动、高斯模糊和椒盐噪声,来模拟无人机航拍图像在不同方位、时间和天气下的成像;其中图像的随机旋转采用了一种填充周围真实区域的旋转方法,分别以每张图片为中心,与其周围网格图片拼接成大图,然后旋转此大图,并在旋转后的大图中央裁剪256×256大小的图片作为旋转结果,如图3所示,左图为原始航拍图像,右图为对航拍图像采用的填充周围真实区域的旋转方法示意图,其中黑框内为旋转后的航拍图像。
(2)单尺寸训练阶段
本发明在AlexNet的基础上进行优化,构建了一个融合显著性特征的多通道全卷积网络模型,称为Multi-channel AlexNet-FCN。具体构建方式为:首先将AlexNet转换为全卷积形式的AlexNet-FCN(网络结构如图4所示),即保持AlexNet的前5个卷积层不变,将第6层全连接层转换为一个卷积核为6×6大小的卷积层,将第7层和第8层全连接层分别转换为一个卷积核为1×1大小的卷积层,并将第8层的输出个数改为网格区域类别数N;然后在AlexNet-FCN的第一层前增加一个卷积核为1×1大小的卷积层,用来将输入的4通道特征图降维为3通道;Multi-channel AlexNet-FCN的输入是混合显著性特征的4通道特征图,即3通道的彩色航拍图像加其单通道显著性特征图,其中显著性特征图采用Image Signature的方式生成。
在训练阶段,用数据准备阶段制作好的256×256大小的数据集融合显著性特征来训练Multi-channel AlexNet-FCN;由于网络定义输入是224×224大小,当训练时输入大于定义输入大小的图片时,首先将输入图片做224×224的随机裁剪,本发明中训练集为256×256大小,经过随机裁剪后进行训练,可以增强网络对局部图像信息的分类能力,从而提高准确率。
Softmax回归的代价函数由交叉熵损失函数得到:
其中1{·}是示性函数,其取值规则为:1{值为真的表达式}=1,1{值为假的表达式}=0。对于代价函数的最小化问题,使用随机梯度下降(SGD)求解。
(3)多尺寸定位阶段
在多尺寸定位阶段,首先计算区域显著性权重矩阵,将训练时的恰好包含所有网格区域的整个飞行区域的整张卫星图像输入训练好的网络模型;然后用类别得票数统计方法统计网络输出,得到投票矩阵;再用区域显著性权重计算法方法对投票矩阵进行计算,得到网格区域显著性权重矩阵。
接下来将训练的飞行区域的尺寸不小于224×224的航拍图像作为测试图像输入训练好的网络,并用邻域显著性参照定位方法(流程图如图5所示)处理网络的输出,包括类别得票数统计方法、预测概率邻域显著性参照加强方法和联通区域分析方法三个步骤。首先用类别得票数统计方法统计网络输出,得到投票矩阵;然后用预测概率邻域显著性参照加强方法,并借助上文得到的网格区域显著性权重矩阵,对投票矩阵进行计算,得到网格区域预测概率矩阵;最后用联通区域分析方法计算网格区域预测概率矩阵,得到定位结果,实现多尺寸航拍图像的定位。以上所述各个方法的具体实施方式如下所述。
类别得票数统计方法是处理Multi-channel AlexNet-FCN的输出的第一步,具体流程如图6所示。对于全卷积网络输出的类别得分矩阵,将每个位置的N个通道中得分最高且大于阈值的类别作为一个预测分类结果;统计由类别得分矩阵得到的所有分类结果,得到输入若干个区域类别及个数,并用表示网格区域类别间的真实位置关系的投票矩阵来描述,投票矩阵中每个位置(i,j)的值等于(i,j)所代表的区域类别的预测个数,没被预测的类别值为0。由此得到的投票矩阵是类别得票数统计方法的结果。
区域显著性权重计算方法如下,将恰好包含所有网格区域的航拍图像混合显著性特征输入训练好的Multi-channel AlexNet-FCN,然后按类别得票数统计方法得到投票矩阵(vote map);已知vote map中每个位置(i,j)代表一个区域,对值为此区域判别个数Vi,j,计算区域显著性权重wi,j:
由此得到的所有网格区域显著性权重矩阵区域显著性权重计算方法的结果。
预测概率邻域显著性参照加强方法通过网格区域及其邻域信息来处理投票矩阵;测试时,将大于224×224的航拍图像混合显著性特征输入训练好的Multi-channelAlexNet-FCN,然后按类别得票数统计方法得到投票矩阵(vote map);已知vote map中每个位置代表一个区域,对值为此区域判别个数Vi,j,计算其预测概率Pi,j:
得到一个与投票矩阵大小相同的概率矩阵;对每个位置(i,j)∈votemap有8个邻域(位置关系如图7所示),组成邻域预测概率的集合Gi,j=Pi-1,j-1,Pi-1,j,Pi-1,j+1,Pi,j-1,Pi,j+1,Pi+1,j-1,Pi+1,j,Pi+1,j+1}和区域显著性权重计算方法得到的邻域显著性权重的集合Si,j=wi-1,j-1,wi-1,j,wi-1,j+1,wi,j-1,wi,j+1,wi+1,j-1,wi+1,j,wi+1,j+1},其中不在vote map中的邻域的概率和显著性权重均设置为0;则对根据Pi,j及其8个邻域的预测概率Gi,j和显著性权重Si,j,计算其加强概率P′i,j:
最后标准化得到新的预测概率Pi,j:
由此得到的网格区域的预测概率矩阵是预测概率邻域显著性参照加强方法的结果。
联通区域分析方法是基于最大投票思想的,按预测概率邻域显著性参照加强方法得到的概率矩阵中所有不为0的位置组成若干连通区域。概率矩阵如图8所示,左图为概率矩阵热力图,右图为概率矩阵三维曲线图。概率矩阵中拥有最大概率和的连通区域所包含位置的所属类别即为输入航拍图像的定位结果,并且按照联通区域中每个区域的概率高低排列定位结果的优先级,概率越高优先级越高;若不存在唯一的拥有最大概率和的连通区域,则对预测概率矩阵反复进行邻域显著性参照加强,直到得到唯一连通区域。
本发明未详细阐述的技术内容属于本领域技术人员的公知技术。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (7)
1.一种基于全卷积网络的邻域显著性参照的多尺寸航拍图像定位方法,其特征在于,包括以下步骤:
步骤(1):基于区域网格化的思想,采用飞行区域全部面积的地图制备方法,将飞行区域划分为大小相同的若干网格,每个网格代表一类区域,并采用数据增强的方法制作训练集;
步骤(2):构建融合显著性特征的多通道全卷积网络模型,称为Multi-channelAlexNet-FCN,实现了一个多尺寸输入的滑动窗口分类器;
步骤(3):基于步骤(1)的训练集,采用邻域显著性参照定位方法统计并筛选步骤(2)中多通道全卷积网络模型的输出,最终得到定位结果;所述邻域显著性参照定位方法包括四个部分:类别得票数统计方法、区域显著性权重计算方法,预测概率邻域显著性参照加强方法和联通区域分析方法;
上述步骤(2)中,所述的Multi-channel AlexNet-FCN是在AlexNet的基础上进行的优化,具体实现为:首先将AlexNet转换为全卷积形式的AlexNet-FCN,即保持AlexNet的前5个卷积层不变,将第6层全连接层转换为一个卷积核为6×6大小的卷积层,将第7层和第8层全连接层分别转换为一个卷积核为1×1大小的卷积层,并将第8层的输出个数改为网格区域类别数N;然后在AlexNet-FCN的第一层前增加一个卷积核为1×1大小的卷积层,用来将输入的4通道特征图降维为3通道;Multi-channel AlexNet-FCN的输入是混合显著性特征的4通道特征图,即3通道的彩色航拍图像加其单通道显著性特征图,其中显著性特征图采用Image Signature的方式生成。
2.根据权利要求1所述的方法,其特征在于:所述步骤(1)中,基于区域网格化的思想,采用飞行区域全部面积的地图制备方法,将飞行区域划分为大小相同的若干网格,相邻网格互不重叠且互相邻接,每个网格代表一类区域。
3.根据权利要求1所述的方法,其特征在于:步骤(1)中,所述数据增强方法为采用图像随机旋转、随机颜色抖动、高斯模糊和椒盐噪声模拟无人机航拍图像在不同方位、时间和天气下的成像;其中所述图像随机旋转采用一种填充周围真实区域的旋转方法,分别以每张图像为中心,与每张图像周围网格图像拼接成大图,然后旋转此大图,并在旋转后的大图中央裁剪网格大小的图像作为旋转结果。
4.根据权利要求1所述的方法,其特征在于:步骤(3)中,所述类别得票数统计方法是处理Multi-channel AlexNet-FCN的输出的第一步,对于全卷积网络输出的类别得分矩阵,将每个位置的N个通道中得分最高且大于阈值的类别作为一个预测分类结果;统计由类别得分矩阵得到的所有分类结果,得到若干个区域类别及判别个数,并用表示网格区域类别间的真实位置关系的投票矩阵来描述,投票矩阵中每个位置(i,j)的值等于(i,j)所代表的区域类别的预测个数,没被预测的类别值为0;由此得到的投票矩阵是权利要求1步骤(3)中的类别得票数统计方法的结果。
6.根据权利要求1所述的方法,其特征在于:步骤(3)中,所述的预测概率邻域显著性参照加强方法通过网格区域及其邻域信息来处理投票矩阵;测试时,将大于224×224的航拍图像混合显著性特征输入训练好的Multi-channel AlexNet-FCN,然后按步骤(3)中的类别得票数统计方法得到投票矩阵vote map;已知vote map中每个位置代表一个区域,对值为此区域判别个数Vi,j,计算其预测概率Pi,j:
得到一个与投票矩阵大小相同的概率矩阵;对每个位置(i,j)∈vote map有8个邻域,组成邻域预测概率的集合Gi,j={Pi-1,j-1,Pi-1,j,Pi-1,j+1,Pi,j-1,Pi,j+1,Pi+1,j-1,Pi+1,j,Pi+1,j+1}和区域显著性权重计算方法得到的邻域显著性权重的集合Si,j={wi-1,j-1,wi-1,j,wi-1,j+1,wi,j-1,wi,j+1,wi+1,j-1,wi+1,j,wi+1,j+1},其中不在vote map中的邻域的概率和显著性权重均设置为0;则对根据其预测概率Pi,j及其8个邻域的预测概率Gi,j和显著性权重Si,j,计算其加强概率P′i,j:
最后标准化得到新的预测概率Pi,j:
由此得到的网格区域的预测概率矩阵,即预测概率邻域显著性参照加强方法的结果。
7.根据权利要求1所述的方法,其特征在于:步骤(3)中所述的联通区域分析方法是基于最大投票思想的,按照预测概率邻域显著性参照加强方法得到的概率矩阵中所有不为0的位置组成若干连通区域,概率矩阵中拥有最大概率和的连通区域所包含位置的所属类别即为输入航拍图像的定位结果,并且按照联通区域中每个区域的概率高低排列定位结果的优先级,概率越高优先级越高;若不存在唯一的拥有最大概率和的连通区域,则对预测概率矩阵反复进行邻域显著性参照加强,直到得到唯一连通区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811326593.5A CN109492580B (zh) | 2018-11-08 | 2018-11-08 | 一种基于全卷积网络的邻域显著性参照的多尺寸航拍图像定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811326593.5A CN109492580B (zh) | 2018-11-08 | 2018-11-08 | 一种基于全卷积网络的邻域显著性参照的多尺寸航拍图像定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109492580A CN109492580A (zh) | 2019-03-19 |
CN109492580B true CN109492580B (zh) | 2020-08-07 |
Family
ID=65694079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811326593.5A Active CN109492580B (zh) | 2018-11-08 | 2018-11-08 | 一种基于全卷积网络的邻域显著性参照的多尺寸航拍图像定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492580B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110146846B (zh) * | 2019-06-06 | 2021-04-13 | 青岛理工大学 | 一种声源位置估计方法、可读存储介质及计算机设备 |
CN110609320B (zh) * | 2019-08-28 | 2021-03-16 | 电子科技大学 | 一种基于多尺度特征融合的叠前地震反射模式识别方法 |
RU2747214C1 (ru) * | 2020-06-10 | 2021-04-29 | Российская Федерация, от имени которой выступает ФОНД ПЕРСПЕКТИВНЫХ ИССЛЕДОВАНИЙ | Программно-аппаратный комплекс, предназначенный для обучения и (или) дообучения алгоритмов обработки аэрофотоснимков видимого и дальнего инфракрасного диапазонов с целью обнаружения, локализации и классификации строений вне населенных пунктов |
RU2747044C1 (ru) * | 2020-06-15 | 2021-04-23 | Российская Федерация, от имени которой выступает ФОНД ПЕРСПЕКТИВНЫХ ИССЛЕДОВАНИЙ | Программно-аппаратный комплекс, предназначенный для обучения и (или) дообучения алгоритмов обработки аэрокосмических изображений местности с целью обнаружения, локализации и классификации до типа авиационной и сухопутной техники |
CN111882531B (zh) * | 2020-07-15 | 2021-08-17 | 中国科学技术大学 | 髋关节超声图像自动分析方法 |
CN112153320B (zh) * | 2020-09-23 | 2022-11-08 | 北京京东振世信息技术有限公司 | 一种物品尺寸的测量方法、装置、电子设备和存储介质 |
CN112258537B (zh) * | 2020-10-27 | 2022-08-26 | 重庆邮电大学 | 一种基于卷积神经网络的监督暗视觉图像边缘检测方法 |
US11601209B2 (en) * | 2020-11-25 | 2023-03-07 | At&T Intellectual Property I, L.P. | Modeling radio wave propagation in a fifth generation (5G) or other next generation network |
CN113420671A (zh) * | 2021-06-24 | 2021-09-21 | 杭州电子科技大学 | 一种基于全局信息注意力的显著性目标检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203432A (zh) * | 2016-07-14 | 2016-12-07 | 杭州健培科技有限公司 | 一种基于卷积神经网显著性图谱的感兴趣区域的定位方法 |
CN107346436A (zh) * | 2017-06-29 | 2017-11-14 | 北京以萨技术股份有限公司 | 一种融合图像分类的视觉显著性检测方法 |
CN107563381A (zh) * | 2017-09-12 | 2018-01-09 | 国家新闻出版广电总局广播科学研究院 | 基于全卷积网络的多特征融合的目标检测方法 |
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN108345892A (zh) * | 2018-01-03 | 2018-07-31 | 深圳大学 | 一种立体图像显著性的检测方法、装置、设备及存储介质 |
WO2018170401A1 (en) * | 2017-03-16 | 2018-09-20 | Siemens Aktiengesellschaft | Visual localization in images using weakly supervised neural network |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
CN106682664A (zh) * | 2016-12-07 | 2017-05-17 | 华南理工大学 | 基于全卷积递归神经网络的水表圆盘区域检测方法 |
CN106815579A (zh) * | 2017-01-22 | 2017-06-09 | 深圳市唯特视科技有限公司 | 一种基于多区域双流卷积神经网络模型的动作检测方法 |
CN107741231B (zh) * | 2017-10-11 | 2020-11-27 | 福州大学 | 一种基于机器视觉的多运动目标快速测距方法 |
CN108594816B (zh) * | 2018-04-23 | 2021-10-29 | 长沙学院 | 一种通过改进orb-slam算法实现定位与构图的方法和系统 |
-
2018
- 2018-11-08 CN CN201811326593.5A patent/CN109492580B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203432A (zh) * | 2016-07-14 | 2016-12-07 | 杭州健培科技有限公司 | 一种基于卷积神经网显著性图谱的感兴趣区域的定位方法 |
WO2018170401A1 (en) * | 2017-03-16 | 2018-09-20 | Siemens Aktiengesellschaft | Visual localization in images using weakly supervised neural network |
CN107346436A (zh) * | 2017-06-29 | 2017-11-14 | 北京以萨技术股份有限公司 | 一种融合图像分类的视觉显著性检测方法 |
CN107563381A (zh) * | 2017-09-12 | 2018-01-09 | 国家新闻出版广电总局广播科学研究院 | 基于全卷积网络的多特征融合的目标检测方法 |
CN108345892A (zh) * | 2018-01-03 | 2018-07-31 | 深圳大学 | 一种立体图像显著性的检测方法、装置、设备及存储介质 |
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
Non-Patent Citations (5)
Title |
---|
Multi-stage Multi-recursive-input Fully Convolutional Networks for Neuronal Boundary Detection;Wei Shen等;《2017 IEEE International Conference on Computer Vision (ICCV)》;20171225;2410-2419 * |
Real-time object detection by a multi-feature fully convolutional network;Yajing Guo等;《2017 IEEE International Conference on Image Processing (ICIP)》;20180222;670-674 * |
Weakly supervised object localization with deep convolutional neural network based on spatial pyramid saliency map;Zhiqiang Wan等;《2017 IEEE International Conference on Image Processing (ICIP)》;20180222;4177-4181 * |
基于视觉注意的驾驶场景显著性检测模型研究;邓涛;《中国优秀博士学位论文全文数据库 信息科技辑(月刊)》;20181015;第2018年卷(第10期);I138-54 * |
感受野学习模型、方法与应用研究;赵骞;《中国优秀博士学位论文全文数据库 信息科技辑(月刊)》;20180215;第2018年卷(第2期);I138-93 * |
Also Published As
Publication number | Publication date |
---|---|
CN109492580A (zh) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492580B (zh) | 一种基于全卷积网络的邻域显著性参照的多尺寸航拍图像定位方法 | |
CN111626217B (zh) | 一种基于二维图片和三维点云融合的目标检测和追踪方法 | |
US20210390329A1 (en) | Image processing method, device, movable platform, unmanned aerial vehicle, and storage medium | |
CN113359810B (zh) | 一种基于多传感器的无人机着陆区域识别方法 | |
Costea et al. | Aerial image geolocalization from recognition and matching of roads and intersections | |
CN102426019B (zh) | 一种无人机景象匹配辅助导航方法及系统 | |
CN107690840B (zh) | 无人机视觉辅助导航方法及系统 | |
US11651302B2 (en) | Method and device for generating synthetic training data for an artificial-intelligence machine for assisting with landing an aircraft | |
Kang et al. | A survey of deep learning-based object detection methods and datasets for overhead imagery | |
CN111476251A (zh) | 一种遥感影像匹配方法及装置 | |
CN109859209B (zh) | 遥感影像分割方法、装置及存储介质、服务器 | |
CN113989797A (zh) | 一种基于体素点云融合的三维动态目标检测方法及装置 | |
CN113343858A (zh) | 路网地理位置识别方法、装置、电子设备及存储介质 | |
Aposporis | Object detection methods for improving UAV autonomy and remote sensing applications | |
Han et al. | Research on remote sensing image target recognition based on deep convolution neural network | |
Ali et al. | A Review of Navigation Algorithms for Unmanned Aerial Vehicles Based on Computer Vision Systems | |
US9892340B2 (en) | Method for classifying objects in an imaging surveillance system | |
Liu et al. | R2YOLOX: a lightweight refined anchor-free rotated detector for object detection in aerial images | |
Yuan et al. | High Speed Safe Autonomous Landing Marker Tracking of Fixed Wing Drone Based on Deep Learning | |
Wei | Small object detection based on deep learning | |
CN114556425A (zh) | 定位的方法、设备、无人机和存储介质 | |
Shi et al. | Fine object change detection based on vector boundary and deep learning with high-resolution remote sensing images | |
Cao et al. | Template matching based on convolution neural network for UAV visual localization | |
Zhou et al. | Place recognition and navigation of outdoor mobile robots based on random Forest learning with a 3D LiDAR | |
CN115187614A (zh) | 一种基于stdc语义分割网络的实时同时定位与建图方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |