CN115620120B - 街景图像多尺度高维特征构建量化方法、设备及存储介质 - Google Patents

街景图像多尺度高维特征构建量化方法、设备及存储介质 Download PDF

Info

Publication number
CN115620120B
CN115620120B CN202211277828.2A CN202211277828A CN115620120B CN 115620120 B CN115620120 B CN 115620120B CN 202211277828 A CN202211277828 A CN 202211277828A CN 115620120 B CN115620120 B CN 115620120B
Authority
CN
China
Prior art keywords
feature
street view
scale
dimensional
view image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211277828.2A
Other languages
English (en)
Other versions
CN115620120A (zh
Inventor
李传广
李道纪
喻金桃
闫丽阳
宋科
宋瑞丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Perception World Beijing Information Technology Co ltd
Original Assignee
Perception World Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Perception World Beijing Information Technology Co ltd filed Critical Perception World Beijing Information Technology Co ltd
Priority to CN202211277828.2A priority Critical patent/CN115620120B/zh
Publication of CN115620120A publication Critical patent/CN115620120A/zh
Application granted granted Critical
Publication of CN115620120B publication Critical patent/CN115620120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/38Outdoor scenes
    • G06V20/39Urban scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种街景图像的多尺度高维特征构建及量化方法设备及存储介质,其中多尺度高维特征构建及量化方法采用预训练得到的残差卷积神经网络框架作为特征提取的主要框架,并采用道路自动驾驶图像分割数据集作为预训练数据集,同时加入多尺度训练策略,对街景图像进行多尺度的高维特征构建。为了提高检索效率和精度,采用注意力得分机制和非极大值抑制算法(NMS)进行高维特征筛选,并采用PCA主成分分析算法对特征进行降维,实现街景图像多尺度高维特征的量化。

Description

街景图像多尺度高维特征构建量化方法、设备及存储介质
技术领域
本发明涉及遥感领域,特别地,涉及遥感影像定位领域。
背景技术
在当前测绘技术条件下,基于GNSS全球导航卫星系统的定位方法仍是获取空间位置信息的主要途径,但在复杂城市环境中,GNSS位方法受卫星数量、大气传输、高楼遮挡、多路径效应等多种因素影响,局部区域定位精度较低。结合带有地理信息的海量街景图像数据,并通过深度学习手段构建以街景图像为关键要素的地理定位技术,将大大提升数字经济,对于国防安全、情报侦察和民生保障都有至关重要的意义。而关于街景图像的高维特征构建及量化方法是基于街景图像进行地理定位的研究核心。如何解决街景图像的多尺度高维特征构建及量化提高检索精度,是本领域亟待解决的技术问题。
发明内容
为此,本发明提供了一种街景图像的多尺度高维特征构建及量化方法,采用预训练得到的残差卷积神经网络框架作为特征提取的主要框架,并采用道路自动驾驶图像分割数据集作为预训练数据集,同时加入多尺度训练策略,对街景图像进行多尺度的高维特征构建。为了提高检索效率和精度,采用注意力得分机制和非极大值抑制算法(NMS)进行高维特征筛选,并采用PCA主成分分析算法对特征进行降维,实现街景图像多尺度高维特征的量化。
该方法包括:
步骤1,卷积神经网络预训练:采用残差网络作为街景图像的语义分割网络,将语义分割网络中的编码网络部分作为街景图像深度特征提取网络;
步骤2,编码网络迁移及多尺度特征提取:在街景图像语义分割网络训练之后,将编码网络进行迁移,加入空间金字塔池化结构;
将街景图像变换N种尺度再输入到卷积神经网络当中,进一步获取街景图像的多尺度深度特征图,N为正整数;
步骤3,基于注意力机制的深度特征点筛选:采用注意力机制对多尺度深度特征图中每个抽象特征像素评分排序,对深度特征点初步筛选,得到评分靠前的K个高维深度特征,K为正整数;
步骤4,多尺度高维深度特征压缩量化:采用主成分分析技术进行高维深度特征的降维,将其维度压缩到D维,并采用特征框归算算法,结合非极大值抑制策略,将重合度高于阈值的目标框进行筛选和剔除,得到评分靠前的S个特征点及对应的高维特征向量,其中D、S均为正整数,特征框归算公式如下:
ymin=-padding+stride*y
xmin=-padding+stride*x
ymax=-padding+stride*y+receptive field-1
xmax=-padding+stride*x+receptive field-1
其中(xmin,ymin,xmax,ymax)为特征框在各尺度街景图中的左上角及右下角坐标,padding卷积操作对特征图边缘进行的填充尺度为当前特征图累计padding尺度,stride为当前特征图卷积操作累计步长,receptive filed为当前特征图每个像素的感受野尺寸。
在可选的实施例中,所述步骤2中将街景图像变换N种尺度输入到卷积神经网络当中的变换公式如下:
Figure GDA0004279464290000031
其中,hnew和wnew为变换后的图像尺寸,h和w为图像原尺寸,δ为变换参数。
在可选的实施例中,采用变换尺度个数为7,对原图像进行7种不同的图像尺度缩放,7个变换参数δ为:0.25,0.3535,0.5,0.7071,1.0,1.4142和2.0。
在可选的实施例中,对训练好的残差神经网络提取得到的特征图尺寸为原图的1/32高维特征图进行两倍双线性上采样,并与原图的1/16高维特征图进行通道维度的叠合操作,完成深度特征融合。
在可选的实施例中,注意力机制为:通过矩阵转置相乘的运算方式对感兴趣区域进行筛选,提高感兴趣部分的权重,进而实现对有用特征信息的提取和处理。
在可选的实施例中,步骤3中的注意力机制评分方法流程包括:
①将卷积网络输出的高维深度特征X1进行1×1卷积降维到固定的256维,之后进行RELU激活和1×1卷积降维得到尺寸为b×1×h×w的特征图Y,其中,RELU为一种函数激活方式,用于对特征图的输出值进行固定范围的函数映射,b为正整数,为神经网络一次训练所带入的样本数,h和w均为正整数,为高维深度特征X1经过卷积降维后的特征图Y的长度和宽度;
②将深度特征X1进行L2正则化,得到深度特征X2
③将Y与X2进行相乘并求和,最终得到尺寸为b×1×h×w特征得分图,即为注意力机制得到的评分图;
④将多尺度街景图像得到的评分图中的分数进行排序,并取前K个特征,即可得到评分靠前的K个高维深度特征。
在可选的实施例中,激活公式如下:
f(x)=max(0,x)。
在可选的实施例中,L2正则化损失函数中对其权重添加相应的惩罚,具体公式如下:
Figure GDA0004279464290000041
其中,m为深度特征值元素个数,hθ(x)为特征值经过网络权值θ计算后的特征值,y为对应的标签值,θ为对应的j个网络权值,λ为权值衰减率,取λ=0.01,即在原有的损失函数下,加入
Figure GDA0004279464290000042
对权重进行惩罚。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序代码,当所述计算机程序代码被计算机设备执行时,所述计算机设备执行上述所述的街景图像的多尺度高维特征构建及量化方法。
本发明实施例的再一方面还提供了一种计算机设备,包括:存储器和处理器;
所述存储器用于存储计算机指令;
所述处理器执行所述存储器存储的计算机指令,以使所述计算机设备执行所述的街景图像的多尺度高维特征构建及量化方法。
本发明的发明点和技术效果:
1、本发明将语义分割任务的卷积神经编码网络应用于街景图像高维特征表达,可针对性增强高维特征的街景语义信息,为后期编码网络提供更多的街景全局信息。
2、本发明基于注意力机制的深度特征点筛选及多尺度高维特征压缩量化是本发明的关键步骤,通过注意力机制和非极大值抑制策略,可使得网络按照人的思维模式,根据关注度排序自动提取有效的全局化街景图像信息,并过滤掉冗余信息,进一步增强高维量化特征的差异性,提高检索精度。
3、本发明在街景图像语义分割网络训练之后,将编码网络进行迁移,并加入空间金字塔池化结构,解决输入图像大小必须固定的问题。
4、将街景图像变换N种尺度输入到卷积神经网络当中,实现对街景图像的多尺度特征获取,通过对原图像进行7种不同的图像尺度缩放,进而提高所提取特征的多尺度鲁棒性。
5、本发明通过叠合操作后,则在通道尺度上对两组特征图进行堆叠,长款尺寸不变,通道数变为C1+C2,也就是说描述图像本身的特征增加了,而每一特征的信息量不变。
6、本发明采用的注意力机制评分原理与人的注意力类似,通过矩阵转置相乘的运算方式对感兴趣区域进行筛选,提高感兴趣部分的权重,进而实现对有用特征信息的提取和处理,避免了对冗余信息的运算,从而提高计算效率和精度。
7、本发明中网络采用RELU激活方式,可最大程度地挖掘相关特性,拟合训练数据,可以加快神经网络反向传播和收敛速率。
8、本发明在损失函数中对其权重添加相应的惩罚,降低过拟合。
9、本发明设计了独特的特征框归算算法,并结合非极大值抑制策略(非极大值抑制策略:将重合度较高的目标框进行筛选和剔除的算法,常用于目标检测框的后处理)得到评分靠前的S个特征点及高维特征向量,保证了全局和局部特征的充分提取和结合。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例中的街景图像高维特征向量构建技术路线示意图,
图2是本发明实施例中的深度特征通道叠合操作示意图,
图3是本发明实施例中的注意力机制评分方法流程图
图4是本发明实施例中的街景图像高维特征向量压缩及量化细节流程示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是本发明实施例中的街景图像高维特征向量构建技术路线示意图,
图2是本发明实施例中的深度特征通道叠合操作示意图,
图3是本发明实施例中的注意力机制评分方法流程图,
图4是本发明实施例中的街景图像高维特征向量压缩及量化细节流程示意图。
参考附图1-4:
本发明实施例提供了一种街景图像的多尺度高维特征构建及量化方法,包括:
步骤1,卷积神经网络预训练:采用残差网络作为街景图像的语义分割网络,并将语义分割网络中的编码网络部分作为街景图像深度特征提取网络;
步骤2,编码网络迁移及多尺度特征提取:在街景图像语义分割网络训练之后,将编码网络进行迁移,加入空间金字塔池化结构;同时,将街景图像变换N种尺度输入到卷积神经网络当中,进一步获取街景图像的多尺度深度特征图;
步骤3,基于注意力机制的深度特征点筛选:采用注意力机制对多尺度深度特征图中每个抽象特征像素评分排序,对深度特征点的初步筛选,得到评分靠前的K个高维深度特征;
步骤4,多尺度高维深度特征压缩量化:采用主成分分析技术进行高维深度特征的降维,将其维度压缩到D维,并采用特征框归算算法,结合非极大值抑制策略,将重合度较高高于阈值(可根据具体任务确定,建议选择阈值=0.4)的目标框进行筛选和剔除,得到评分靠前的S个特征点及对应的高维特征向量,特征框归算公式如下:
ymin=-padding+stride*y
xmin=-padding+stride*x
ymax=-padding+stride*y+receptive field-1
xmax=-padding+stride*x+receptive field-1
其中(xmin,ymin,xmax,ymax)为特征框在各尺度街景图中的左上角及右下角坐标,padding卷积操作对特征图边缘进行的填充尺度为当前特征图累计padding尺度,stride为当前特征图卷积操作累计步长,receptive filed为当前特征图每个像素的感受野尺寸。
该方法采用预训练得到的残差卷积神经网络框架作为特征提取的主要框架,并采用道路自动驾驶图像分割数据集作为预训练数据集,同时加入多尺度训练策略,对街景图像进行多尺度的高维特征构建。为了提高检索效率和精度,采用注意力得分机制和非极大值抑制算法(NMS)进行高维特征筛选,并采用PCA主成分分析算法对特征进行降维,实现街景图像多尺度高维特征的量化。
整个技术主要流程如图1所示,主要分为四个关键步骤:卷积神经网络预训练、编码网络迁移及多尺度特征提取、基于注意力机制的深度特征点筛选、多尺度高维特征压缩量化。其中,将语义分割任务的卷积神经编码网络应用于街景图像高维特征表达,可针对性增强高维特征的街景语义信息,为后期编码网络提供更多的街景全局信息。基于注意力机制的深度特征点筛选及多尺度高维特征压缩量化是本发明的关键步骤,也是整个技术的创新点,通过注意力机制和非极大值抑制策略,可使得网络按照人的思维模式,根据关注度排序自动提取有效的全局化街景图像信息,并过滤掉冗余信息,进一步增强高维量化特征的差异性,提高检索精度。
以下对各步骤进行详细说明:
步骤1:卷积神经网络预训练
采用Cityscapes数据集或与街景图像类似的数据集对语义分割网络进行预训练,实现卷积神经网络对街景图像布局和特征的深度学习。本发明采用残差网络作为街景图像的语义分割网络,并将语义分割网络中的编码网络部分作为街景图像深度特征提取网络。
步骤2:编码网络迁移及多尺度特征提取
在街景图像语义分割网络训练之后,将编码网络进行迁移,并加入空间金字塔池化结构,解决输入图像大小必须固定的问题。同时,将街景图像变换N种尺度再输入到卷积神经网络当中,实现对街景图像的多尺度深度特征图获取,本发明中采用变换尺度个数为7,变换参数δ为0.25,0.3535,0.5,0.7071,1.0,1.4142,2.0。具体变换公式如下:
Figure GDA0004279464290000091
其中,hnew和wnew为变换后的图像尺寸,h和w为图像原尺寸,通过对原图像进行7种不同的图像尺度缩放,进而提高所提取特征的多尺度鲁棒性。
为了实现局部特征与全局特征的综合,对训练好的残差神经网络提取得到的1/32高维特征图(特征图尺寸为原图的1/32)进行两倍双线性上采样,并与原图的1/16高维特征图进行通道维度的叠合操作,实现深度特征融合。
因为池化会减少特征图尺度,细节信息会减少,故1/16的特征图的细节信息会多于1/32的特征图,故进行融合操作,提高信息量。
具体的叠合操作如图2所示。
即设两组深度特征图通道数分别为C1和C2,长宽尺寸均为h和w,通过叠合操作后,则在通道尺度上对两组特征图进行堆叠,长宽尺寸不变,通道数变为C1+C2,也就是说描述图像本身的特征增加了,而每一特征的信息量不变。步骤3:基于注意力机制的深度特征点筛选
本技术采用注意力机制实现对多尺度深度特征图中每个抽象像素的评分排序,实现对多尺度深度特征点的初步筛选。实际上,注意力机制评分原理与人的注意力类似,通过矩阵转置相乘的运算方式对感兴趣区域进行筛选,提高感兴趣部分的权重,进而实现对有用特征信息的提取和处理,避免了对冗余信息的运算,从而提高计算效率和精度。注意力机制评分方法流程及步骤如图3所示。
①将卷积网络输出的高维深度特征X1进行1×1卷积降维到固定的256维,之后进行RELU激活和1×1卷积降维得到尺寸为b×1×h×w的特征图Y(其中b为正整数,为神经网络一次训练所带入的样本数,h和w均为正整数,为高维深度特征X1经过卷降维后的特征图Y的长度和宽度);其中,RELU为一种函数激活方式,用于对特征图的输出值进行固定范围的函数映射,具体激活公式如下:
f(x)=max(0,x)
即RELU激活函数本质是个取最大值的函数,这种激活方式在输入特征值是负值的情况下,输出为0,那么代表该神经元不会被激活,即同一激活层中只有部分神经元会被激活,从而使得网络很稀疏,进而对计算来说是非常有效率的,避免了过拟合。此外,该函数在大于0的部分梯度为常数,所以不会产生梯度弥散现象。本网络采用RELU激活方式,可最大程度地挖掘相关特性,拟合训练数据,可以加快神经网络反向传播和收敛速率。
②将深度特征X1进行L2正则化(防止卷积神经网络过拟合的策略),得到深度特征X2。L2正则化目的是防止网络过拟合,在最后的损失函数中对其权重添加相应的惩罚,具体公式如下:
Figure GDA0004279464290000101
其中,m为深度特征值元素个数,hθ(x)为特征值经过网络权值θ计算后的特征值,y为对应的标签值(已知的特征值),θ为该层对应的j个网络权值,λ为权值衰减率,本发明中取λ=0.01。即在原有的损失函数下,加入
Figure GDA0004279464290000102
对权重进行惩罚,降低过拟合。
③将Y与X2进行相乘并求和,最终得到尺寸为b×1×h×w特征得分图,即为注意力机制得到的评分图;
④将多尺度街景图像得到的评分图中的分数进行排序,并取前K个特征,即可得到评分靠前的K个高维深度特征。
步骤4:多尺度高维特征压缩量化
为了实现对深度特征的进一步筛选和压缩量化,采用主成分分析技术实现高维特征的降维操作,将其维度压缩到D维,具体的维度D依据街景图像数据量、检索精度和检索效率要求进行确定。此外,本发明设计了独特的特征框归算算法,并结合非极大值抑制策略(非极大值抑制策略:将重合度较高的目标框进行筛选和剔除的算法,常用于目标检测框的后处理)得到评分靠前的S个特征点及对应的高维特征向量,保证了全局和局部特征的充分提取和结合。上述重合度较高指的是高于阈值,可根据具体任务确定,建议选择阈值=0.4。
多尺度高维特征压缩量化流程如图4所示。
深度特征图中的每个特征像素在经过注意力机制评分和PCA降维之后,需要将其对应的特征框归算到原图当中进行非极大值抑制。这里以基于ResNet残差系列编码网络为例,具体的特征框归算公式如下:
ymin=-padding+stride*y
xmin=-padding+stride*x
ymax=-padding+stride*y+receptive field-1
xmax=-padding+stride*x+receptive field-1
该公式可将深度抽象特征图对应的高得分特征点归算到原图当中,并得到相应的感受野(感受野:深度特征图的每个点对应原图中的特征区域)尺寸大小,最大程度表达街景图像的局部特征和全局特征。其中(xmin,ymin,xmax,ymax)为特征框在各尺度街景图中的左上角及右下角坐标,padding(卷积操作对特征图边缘进行的填充尺度)为当前特征图累计padding尺度,stride为当前特征图卷积操作累计步长,receptive filed为当前特征图每个像素的感受野尺寸。对于ResNet中的conv4_x特征图,其padding、stride和receptivefiled分别为145、16、291;对于ResNet中的conv5_x特征图,其padding、stride和receptivefiled分别为241、32、483。
在计算出各尺度街景图的特征框之后,将其按比例缩放到原尺度街景图中,并采用非极大值抑制策略进行特征框剔除,最后筛选出前S个特征向量作为该街景图像的高维特征向量,实现街景图像的最终高维特征构建及量化。
在另一方面,本申请实施例提供的街景图像的多尺度高维特征构建及量化方法可以部署于计算机设备。
计算机设备可以包括:输入单元、处理器单元、通信单元、存储单元、输出单元及电源等电子设备。
输入单元,用于输入或载入图像数据,
处理器单元,用于进行图像数据的处理和计算,
通信单元,用于实现数据的接收和发送,
存储单元,用于存储计算机指令,和数据库,
输出单元,用于输出处理结果。
本申请实施例提供的计算机设备可以用于执行前述实施例中的街景图像的多尺度高维特征构建及量化方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk)等。
可以理解,除了上述内容,还包括一些常规结构和常规方法,由于这些内容都是公知的,不再赘述。但这并不意味着本发明不存在这些结构和方法。
本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims (10)

1.一种街景图像的多尺度高维特征构建及量化方法,其特征在于,包括:
步骤1,卷积神经网络预训练:采用残差网络作为街景图像的语义分割网络,将语义分割网络中的编码网络部分作为街景图像深度特征提取网络;
步骤2,编码网络迁移及多尺度特征提取:在街景图像语义分割网络训练之后,将编码网络进行迁移,加入空间金字塔池化结构;
将街景图像变换N种尺度再输入到卷积神经网络当中,进一步获取街景图像的多尺度深度特征图,N为正整数;
步骤3,基于注意力机制的深度特征点筛选:采用注意力机制对多尺度深度特征图中每个抽象特征像素评分排序,对深度特征点初步筛选,得到评分靠前的K个高维深度特征,K为正整数;
步骤4,多尺度高维深度特征压缩量化:采用主成分分析技术进行高维深度特征的降维,将其维度压缩到D维,并采用特征框归算算法,结合非极大值抑制策略,将重合度高于阈值的目标框进行筛选和剔除,得到评分靠前的S个特征点及对应的高维特征向量,其中D、S均为正整数,特征框归算公式如下:
ymin=-padding+stride*y
xmin=-padding+stride*x
ymax=-padding+stride*y+receptive field-1
xmax=-padding+stride*x+receptive field-1
其中(xmin,ymin,xmax,ymax)为特征框在各尺度街景图中的左上角及右下角坐标,padding卷积操作对特征图边缘进行的填充尺度为当前特征图累计padding尺度,stride为当前特征图卷积操作累计步长,receptive filed为当前特征图每个像素的感受野尺寸。
2.如权利要求1所述的街景图像的多尺度高维特征构建及量化方法,其特征在于,所述步骤2中将街景图像变换N种尺度输入到卷积神经网络当中的变换公式如下:
Figure QLYQS_1
其中,hnew和wnew为变换后的图像尺寸,h和w为图像原尺寸,δ为变换参数。
3.如权利要求2所述的街景图像的多尺度高维特征构建及量化方法,其特征在于,采用变换尺度个数为7,对原图像进行7种不同的图像尺度缩放,7个变换参数δ为:0.25,0.3535,0.5,0.7071,1.0,1.4142和2.0。
4.如权利要求1所述的街景图像的多尺度高维特征构建及量化方法,其特征在于,对训练好的残差神经网络提取得到的特征图尺寸为原图的1/32高维特征图进行两倍双线性上采样,并与原图的1/16高维特征图进行通道维度的叠合操作,完成深度特征融合。
5.如权利要求1所述的街景图像的多尺度高维特征构建及量化方法,其特征在于,注意力机制为:通过矩阵转置相乘的运算方式对感兴趣区域进行筛选,提高感兴趣部分的权重,进而实现对有用特征信息的提取和处理。
6.如权利要求1所述的街景图像的多尺度高维特征构建及量化方法,其特征在于,步骤3中的注意力机制评分方法流程包括:
①将卷积网络输出的高维深度特征X1进行1×1卷积降维到固定的256维,之后进行RELU激活和1×1卷积降维得到尺寸为b×1×h×w的特征图Y,其中,RELU为一种函数激活方式,用于对特征图的输出值进行固定范围的函数映射,b为正整数,为神经网络一次训练所带入的样本数,h和w均为正整数,为高维深度特征X1经过卷积降维后的特征图Y的长度和宽度;
②将深度特征X1进行L2正则化,得到深度特征X2
③将Y与X2进行相乘并求和,最终得到尺寸为b×1×h×w特征得分图,即为注意力机制得到的评分图;
④将多尺度街景图像得到的评分图中的分数进行排序,并取前K个特征,即可得到评分靠前的K个高维深度特征。
7.如权利要求6所述的街景图像的多尺度高维特征构建及量化方法,其特征在于,激活公式如下:
f(x)=max(0,x)。
8.如权利要求6所述的街景图像的多尺度高维特征构建及量化方法,其特征在于,L2正则化损失函数中对其权重添加相应的惩罚,具体公式如下:
Figure QLYQS_2
其中,m为深度特征值元素个数,hθ(x)为特征值经过网络权值θ计算后的特征值,y为对应的标签值,θ为对应的j个网络权值,λ为权值衰减率,取λ=0.01,即在原有的损失函数下,加入
Figure QLYQS_3
对权重进行惩罚。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序代码,当所述计算机程序代码被计算机设备执行时,所述计算机设备执行上述权利要求1-8中任一项所述的街景图像的多尺度高维特征构建及量化方法。
10.一种计算机设备,其特征在于,包括:存储器和处理器;
所述存储器用于存储计算机指令;
所述处理器执行所述存储器存储的计算机指令,以使所述计算机设备执行如权利要求1-8任一项所述的街景图像的多尺度高维特征构建及量化方法。
CN202211277828.2A 2022-10-19 2022-10-19 街景图像多尺度高维特征构建量化方法、设备及存储介质 Active CN115620120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211277828.2A CN115620120B (zh) 2022-10-19 2022-10-19 街景图像多尺度高维特征构建量化方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211277828.2A CN115620120B (zh) 2022-10-19 2022-10-19 街景图像多尺度高维特征构建量化方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115620120A CN115620120A (zh) 2023-01-17
CN115620120B true CN115620120B (zh) 2023-07-11

Family

ID=84861732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211277828.2A Active CN115620120B (zh) 2022-10-19 2022-10-19 街景图像多尺度高维特征构建量化方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115620120B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131908B (zh) * 2023-10-20 2024-01-30 华东交通大学 一种基于退火衰减的深度卷积神经网络的压缩方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651973B (zh) * 2020-12-14 2022-10-28 南京理工大学 基于特征金字塔注意力和混合注意力级联的语义分割方法
CN113378906B (zh) * 2021-06-04 2022-05-13 武汉大学 一种特征自适应对齐的无监督域适应遥感图像语义分割方法

Also Published As

Publication number Publication date
CN115620120A (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN110135267B (zh) 一种大场景sar图像细微目标检测方法
CN112101190B (zh) 一种遥感图像分类方法、存储介质及计算设备
WO2021249255A1 (zh) 一种基于RP-ResNet网络的抓取检测方法
CN113469073B (zh) 一种基于轻量级深度学习的sar图像舰船检测方法及系统
Luus et al. Multiview deep learning for land-use classification
CN112016507B (zh) 基于超分辨率的车辆检测方法、装置、设备及存储介质
CN110599401A (zh) 遥感图像超分辨率重建方法、处理装置及可读存储介质
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN111680176A (zh) 基于注意力与双向特征融合的遥感图像检索方法及系统
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN115620120B (zh) 街景图像多尺度高维特征构建量化方法、设备及存储介质
CN115222998B (zh) 一种图像分类方法
CN114594461A (zh) 基于注意力感知与缩放因子剪枝的声呐目标检测方法
CN113378897A (zh) 基于神经网络的遥感图像分类方法、计算设备及存储介质
CN113420651A (zh) 深度卷积神经网络的轻量化方法、系统及目标检测方法
CN115457311A (zh) 一种基于自表达迁移学习的高光谱遥感影像波段选择方法
Wang Remote sensing image semantic segmentation algorithm based on improved ENet network
US20210279594A1 (en) Method and apparatus for video coding
CN113743346A (zh) 图像识别方法、装置、电子设备及存储介质
CN109558819B (zh) 一种用于遥感图像目标检测的深度网络轻量化方法
CN107133921A (zh) 基于多层次邻域嵌入的图像超分辨率重建方法及系统
CN114462490A (zh) 图像目标的检索方法、检索设备、电子设备和存储介质
CN114332533A (zh) 一种基于DenseNet的滑坡图像识别方法和系统
CN114170519A (zh) 基于深度学习与多维注意力的高分辨率遥感道路提取方法
Bousias Alexakis et al. Evaluation of semi-supervised learning for CNN-based change detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant