CN115620120B

CN115620120B - 街景图像多尺度高维特征构建量化方法、设备及存储介质

Info

Publication number: CN115620120B
Application number: CN202211277828.2A
Authority: CN
Inventors: 李传广; 李道纪; 喻金桃; 闫丽阳; 宋科; 宋瑞丽
Original assignee: Perception World Beijing Information Technology Co ltd
Current assignee: Perception World Beijing Information Technology Co ltd
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2023-07-11
Anticipated expiration: 2042-10-19
Also published as: CN115620120A

Abstract

本发明提供了一种街景图像的多尺度高维特征构建及量化方法设备及存储介质，其中多尺度高维特征构建及量化方法采用预训练得到的残差卷积神经网络框架作为特征提取的主要框架，并采用道路自动驾驶图像分割数据集作为预训练数据集，同时加入多尺度训练策略，对街景图像进行多尺度的高维特征构建。为了提高检索效率和精度，采用注意力得分机制和非极大值抑制算法(NMS)进行高维特征筛选，并采用PCA主成分分析算法对特征进行降维，实现街景图像多尺度高维特征的量化。

Description

街景图像多尺度高维特征构建量化方法、设备及存储介质

技术领域

本发明涉及遥感领域，特别地，涉及遥感影像定位领域。

背景技术

在当前测绘技术条件下，基于GNSS全球导航卫星系统的定位方法仍是获取空间位置信息的主要途径，但在复杂城市环境中，GNSS位方法受卫星数量、大气传输、高楼遮挡、多路径效应等多种因素影响，局部区域定位精度较低。结合带有地理信息的海量街景图像数据，并通过深度学习手段构建以街景图像为关键要素的地理定位技术，将大大提升数字经济，对于国防安全、情报侦察和民生保障都有至关重要的意义。而关于街景图像的高维特征构建及量化方法是基于街景图像进行地理定位的研究核心。如何解决街景图像的多尺度高维特征构建及量化提高检索精度，是本领域亟待解决的技术问题。

发明内容

为此，本发明提供了一种街景图像的多尺度高维特征构建及量化方法，采用预训练得到的残差卷积神经网络框架作为特征提取的主要框架，并采用道路自动驾驶图像分割数据集作为预训练数据集，同时加入多尺度训练策略，对街景图像进行多尺度的高维特征构建。为了提高检索效率和精度，采用注意力得分机制和非极大值抑制算法(NMS)进行高维特征筛选，并采用PCA主成分分析算法对特征进行降维，实现街景图像多尺度高维特征的量化。

该方法包括：

步骤1，卷积神经网络预训练：采用残差网络作为街景图像的语义分割网络，将语义分割网络中的编码网络部分作为街景图像深度特征提取网络；

步骤2，编码网络迁移及多尺度特征提取：在街景图像语义分割网络训练之后，将编码网络进行迁移，加入空间金字塔池化结构；

将街景图像变换N种尺度再输入到卷积神经网络当中，进一步获取街景图像的多尺度深度特征图，N为正整数；

步骤3，基于注意力机制的深度特征点筛选：采用注意力机制对多尺度深度特征图中每个抽象特征像素评分排序，对深度特征点初步筛选，得到评分靠前的K个高维深度特征，K为正整数；

步骤4，多尺度高维深度特征压缩量化：采用主成分分析技术进行高维深度特征的降维，将其维度压缩到D维，并采用特征框归算算法，结合非极大值抑制策略，将重合度高于阈值的目标框进行筛选和剔除，得到评分靠前的S个特征点及对应的高维特征向量，其中D、S均为正整数，特征框归算公式如下：

y_min＝-padding+stride*y

x_min＝-padding+stride*x

y_max＝-padding+stride*y+receptive field-1

x_max＝-padding+stride*x+receptive field-1

其中(x_min，y_min，x_max，y_max)为特征框在各尺度街景图中的左上角及右下角坐标，padding卷积操作对特征图边缘进行的填充尺度为当前特征图累计padding尺度，stride为当前特征图卷积操作累计步长，receptive filed为当前特征图每个像素的感受野尺寸。

在可选的实施例中，所述步骤2中将街景图像变换N种尺度输入到卷积神经网络当中的变换公式如下：

其中，h_new和w_new为变换后的图像尺寸，h和w为图像原尺寸，δ为变换参数。

在可选的实施例中，采用变换尺度个数为7，对原图像进行7种不同的图像尺度缩放，7个变换参数δ为：0.25,0.3535,0.5,0.7071,1.0,1.4142和2.0。

在可选的实施例中，对训练好的残差神经网络提取得到的特征图尺寸为原图的1/32高维特征图进行两倍双线性上采样，并与原图的1/16高维特征图进行通道维度的叠合操作，完成深度特征融合。

在可选的实施例中，注意力机制为：通过矩阵转置相乘的运算方式对感兴趣区域进行筛选，提高感兴趣部分的权重，进而实现对有用特征信息的提取和处理。

在可选的实施例中，步骤3中的注意力机制评分方法流程包括：

①将卷积网络输出的高维深度特征X₁进行1×1卷积降维到固定的256维，之后进行RELU激活和1×1卷积降维得到尺寸为b×1×h×w的特征图Y，其中，RELU为一种函数激活方式，用于对特征图的输出值进行固定范围的函数映射，b为正整数，为神经网络一次训练所带入的样本数，h和w均为正整数，为高维深度特征X₁经过卷积降维后的特征图Y的长度和宽度；

②将深度特征X₁进行L2正则化，得到深度特征X₂；

③将Y与X₂进行相乘并求和，最终得到尺寸为b×1×h×w特征得分图，即为注意力机制得到的评分图；

④将多尺度街景图像得到的评分图中的分数进行排序，并取前K个特征，即可得到评分靠前的K个高维深度特征。

在可选的实施例中，激活公式如下：

f(x)＝max(0,x)。

在可选的实施例中，L2正则化损失函数中对其权重添加相应的惩罚，具体公式如下：

其中，m为深度特征值元素个数，h_θ(x)为特征值经过网络权值θ计算后的特征值，y为对应的标签值，θ为对应的j个网络权值，λ为权值衰减率，取λ＝0.01，即在原有的损失函数下，加入

对权重进行惩罚。

本发明实施例的另一方面还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被计算机设备执行时，所述计算机设备执行上述所述的街景图像的多尺度高维特征构建及量化方法。

本发明实施例的再一方面还提供了一种计算机设备，包括：存储器和处理器；

所述存储器用于存储计算机指令；

所述处理器执行所述存储器存储的计算机指令，以使所述计算机设备执行所述的街景图像的多尺度高维特征构建及量化方法。

本发明的发明点和技术效果：

1、本发明将语义分割任务的卷积神经编码网络应用于街景图像高维特征表达，可针对性增强高维特征的街景语义信息，为后期编码网络提供更多的街景全局信息。

2、本发明基于注意力机制的深度特征点筛选及多尺度高维特征压缩量化是本发明的关键步骤，通过注意力机制和非极大值抑制策略，可使得网络按照人的思维模式，根据关注度排序自动提取有效的全局化街景图像信息，并过滤掉冗余信息，进一步增强高维量化特征的差异性，提高检索精度。

3、本发明在街景图像语义分割网络训练之后，将编码网络进行迁移，并加入空间金字塔池化结构，解决输入图像大小必须固定的问题。

4、将街景图像变换N种尺度输入到卷积神经网络当中，实现对街景图像的多尺度特征获取，通过对原图像进行7种不同的图像尺度缩放，进而提高所提取特征的多尺度鲁棒性。

5、本发明通过叠合操作后，则在通道尺度上对两组特征图进行堆叠，长款尺寸不变，通道数变为C1+C2，也就是说描述图像本身的特征增加了，而每一特征的信息量不变。

6、本发明采用的注意力机制评分原理与人的注意力类似，通过矩阵转置相乘的运算方式对感兴趣区域进行筛选，提高感兴趣部分的权重，进而实现对有用特征信息的提取和处理，避免了对冗余信息的运算，从而提高计算效率和精度。

7、本发明中网络采用RELU激活方式，可最大程度地挖掘相关特性，拟合训练数据，可以加快神经网络反向传播和收敛速率。

8、本发明在损失函数中对其权重添加相应的惩罚，降低过拟合。

9、本发明设计了独特的特征框归算算法，并结合非极大值抑制策略(非极大值抑制策略：将重合度较高的目标框进行筛选和剔除的算法，常用于目标检测框的后处理)得到评分靠前的S个特征点及高维特征向量，保证了全局和局部特征的充分提取和结合。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例中的街景图像高维特征向量构建技术路线示意图，

图2是本发明实施例中的深度特征通道叠合操作示意图，

图3是本发明实施例中的注意力机制评分方法流程图

图4是本发明实施例中的街景图像高维特征向量压缩及量化细节流程示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图2是本发明实施例中的深度特征通道叠合操作示意图，

图3是本发明实施例中的注意力机制评分方法流程图，

参考附图1-4：

本发明实施例提供了一种街景图像的多尺度高维特征构建及量化方法，包括：

步骤1，卷积神经网络预训练：采用残差网络作为街景图像的语义分割网络，并将语义分割网络中的编码网络部分作为街景图像深度特征提取网络；

步骤2，编码网络迁移及多尺度特征提取：在街景图像语义分割网络训练之后，将编码网络进行迁移，加入空间金字塔池化结构；同时，将街景图像变换N种尺度输入到卷积神经网络当中，进一步获取街景图像的多尺度深度特征图；

步骤3，基于注意力机制的深度特征点筛选：采用注意力机制对多尺度深度特征图中每个抽象特征像素评分排序，对深度特征点的初步筛选，得到评分靠前的K个高维深度特征；

步骤4，多尺度高维深度特征压缩量化：采用主成分分析技术进行高维深度特征的降维，将其维度压缩到D维，并采用特征框归算算法，结合非极大值抑制策略，将重合度较高高于阈值(可根据具体任务确定，建议选择阈值＝0.4)的目标框进行筛选和剔除，得到评分靠前的S个特征点及对应的高维特征向量，特征框归算公式如下：

y_min＝-padding+stride*y

x_min＝-padding+stride*x

y_max＝-padding+stride*y+receptive field-1

x_max＝-padding+stride*x+receptive field-1

该方法采用预训练得到的残差卷积神经网络框架作为特征提取的主要框架，并采用道路自动驾驶图像分割数据集作为预训练数据集，同时加入多尺度训练策略，对街景图像进行多尺度的高维特征构建。为了提高检索效率和精度，采用注意力得分机制和非极大值抑制算法(NMS)进行高维特征筛选，并采用PCA主成分分析算法对特征进行降维，实现街景图像多尺度高维特征的量化。

整个技术主要流程如图1所示，主要分为四个关键步骤：卷积神经网络预训练、编码网络迁移及多尺度特征提取、基于注意力机制的深度特征点筛选、多尺度高维特征压缩量化。其中，将语义分割任务的卷积神经编码网络应用于街景图像高维特征表达，可针对性增强高维特征的街景语义信息，为后期编码网络提供更多的街景全局信息。基于注意力机制的深度特征点筛选及多尺度高维特征压缩量化是本发明的关键步骤，也是整个技术的创新点，通过注意力机制和非极大值抑制策略，可使得网络按照人的思维模式，根据关注度排序自动提取有效的全局化街景图像信息，并过滤掉冗余信息，进一步增强高维量化特征的差异性，提高检索精度。

以下对各步骤进行详细说明：

步骤1：卷积神经网络预训练

采用Cityscapes数据集或与街景图像类似的数据集对语义分割网络进行预训练，实现卷积神经网络对街景图像布局和特征的深度学习。本发明采用残差网络作为街景图像的语义分割网络，并将语义分割网络中的编码网络部分作为街景图像深度特征提取网络。

步骤2：编码网络迁移及多尺度特征提取

在街景图像语义分割网络训练之后，将编码网络进行迁移，并加入空间金字塔池化结构，解决输入图像大小必须固定的问题。同时，将街景图像变换N种尺度再输入到卷积神经网络当中，实现对街景图像的多尺度深度特征图获取，本发明中采用变换尺度个数为7，变换参数δ为0.25,0.3535,0.5,0.7071,1.0,1.4142,2.0。具体变换公式如下：

其中，h_new和w_new为变换后的图像尺寸，h和w为图像原尺寸，通过对原图像进行7种不同的图像尺度缩放，进而提高所提取特征的多尺度鲁棒性。

为了实现局部特征与全局特征的综合，对训练好的残差神经网络提取得到的1/32高维特征图(特征图尺寸为原图的1/32)进行两倍双线性上采样，并与原图的1/16高维特征图进行通道维度的叠合操作，实现深度特征融合。

因为池化会减少特征图尺度，细节信息会减少，故1/16的特征图的细节信息会多于1/32的特征图，故进行融合操作，提高信息量。

具体的叠合操作如图2所示。

即设两组深度特征图通道数分别为C1和C2，长宽尺寸均为h和w，通过叠合操作后，则在通道尺度上对两组特征图进行堆叠，长宽尺寸不变，通道数变为C1+C2，也就是说描述图像本身的特征增加了，而每一特征的信息量不变。步骤3：基于注意力机制的深度特征点筛选

本技术采用注意力机制实现对多尺度深度特征图中每个抽象像素的评分排序，实现对多尺度深度特征点的初步筛选。实际上，注意力机制评分原理与人的注意力类似，通过矩阵转置相乘的运算方式对感兴趣区域进行筛选，提高感兴趣部分的权重，进而实现对有用特征信息的提取和处理，避免了对冗余信息的运算，从而提高计算效率和精度。注意力机制评分方法流程及步骤如图3所示。

①将卷积网络输出的高维深度特征X₁进行1×1卷积降维到固定的256维，之后进行RELU激活和1×1卷积降维得到尺寸为b×1×h×w的特征图Y(其中b为正整数，为神经网络一次训练所带入的样本数，h和w均为正整数，为高维深度特征X₁经过卷降维后的特征图Y的长度和宽度)；其中，RELU为一种函数激活方式，用于对特征图的输出值进行固定范围的函数映射，具体激活公式如下：

f(x)＝max(0,x)

即RELU激活函数本质是个取最大值的函数，这种激活方式在输入特征值是负值的情况下，输出为0，那么代表该神经元不会被激活，即同一激活层中只有部分神经元会被激活，从而使得网络很稀疏，进而对计算来说是非常有效率的，避免了过拟合。此外，该函数在大于0的部分梯度为常数，所以不会产生梯度弥散现象。本网络采用RELU激活方式，可最大程度地挖掘相关特性，拟合训练数据，可以加快神经网络反向传播和收敛速率。

②将深度特征X₁进行L2正则化(防止卷积神经网络过拟合的策略)，得到深度特征X₂。L2正则化目的是防止网络过拟合，在最后的损失函数中对其权重添加相应的惩罚，具体公式如下：

其中，m为深度特征值元素个数，h_θ(x)为特征值经过网络权值θ计算后的特征值，y为对应的标签值(已知的特征值)，θ为该层对应的j个网络权值，λ为权值衰减率，本发明中取λ＝0.01。即在原有的损失函数下，加入

对权重进行惩罚，降低过拟合。

步骤4：多尺度高维特征压缩量化

为了实现对深度特征的进一步筛选和压缩量化，采用主成分分析技术实现高维特征的降维操作，将其维度压缩到D维，具体的维度D依据街景图像数据量、检索精度和检索效率要求进行确定。此外，本发明设计了独特的特征框归算算法，并结合非极大值抑制策略(非极大值抑制策略：将重合度较高的目标框进行筛选和剔除的算法，常用于目标检测框的后处理)得到评分靠前的S个特征点及对应的高维特征向量，保证了全局和局部特征的充分提取和结合。上述重合度较高指的是高于阈值，可根据具体任务确定，建议选择阈值＝0.4。

多尺度高维特征压缩量化流程如图4所示。

深度特征图中的每个特征像素在经过注意力机制评分和PCA降维之后，需要将其对应的特征框归算到原图当中进行非极大值抑制。这里以基于ResNet残差系列编码网络为例，具体的特征框归算公式如下：

y_min＝-padding+stride*y

x_min＝-padding+stride*x

y_max＝-padding+stride*y+receptive field-1

x_max＝-padding+stride*x+receptive field-1

该公式可将深度抽象特征图对应的高得分特征点归算到原图当中，并得到相应的感受野(感受野：深度特征图的每个点对应原图中的特征区域)尺寸大小，最大程度表达街景图像的局部特征和全局特征。其中(x_min，y_min，x_max，y_max)为特征框在各尺度街景图中的左上角及右下角坐标，padding(卷积操作对特征图边缘进行的填充尺度)为当前特征图累计padding尺度，stride为当前特征图卷积操作累计步长，receptive filed为当前特征图每个像素的感受野尺寸。对于ResNet中的conv4_x特征图，其padding、stride和receptivefiled分别为145、16、291；对于ResNet中的conv5_x特征图，其padding、stride和receptivefiled分别为241、32、483。

在计算出各尺度街景图的特征框之后，将其按比例缩放到原尺度街景图中，并采用非极大值抑制策略进行特征框剔除，最后筛选出前S个特征向量作为该街景图像的高维特征向量，实现街景图像的最终高维特征构建及量化。

在另一方面，本申请实施例提供的街景图像的多尺度高维特征构建及量化方法可以部署于计算机设备。

计算机设备可以包括：输入单元、处理器单元、通信单元、存储单元、输出单元及电源等电子设备。

输入单元，用于输入或载入图像数据，

处理器单元，用于进行图像数据的处理和计算，

通信单元，用于实现数据的接收和发送，

存储单元，用于存储计算机指令，和数据库，

输出单元，用于输出处理结果。

本申请实施例提供的计算机设备可以用于执行前述实施例中的街景图像的多尺度高维特征构建及量化方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk)等。

可以理解，除了上述内容，还包括一些常规结构和常规方法，由于这些内容都是公知的，不再赘述。但这并不意味着本发明不存在这些结构和方法。

本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的多个示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

1.一种街景图像的多尺度高维特征构建及量化方法，其特征在于，包括：

y_min＝-padding+stride*y

x_min＝-padding+stride*x

y_max＝-padding+stride*y+receptive field-1

x_max＝-padding+stride*x+receptive field-1

2.如权利要求1所述的街景图像的多尺度高维特征构建及量化方法，其特征在于，所述步骤2中将街景图像变换N种尺度输入到卷积神经网络当中的变换公式如下：

3.如权利要求2所述的街景图像的多尺度高维特征构建及量化方法，其特征在于，采用变换尺度个数为7，对原图像进行7种不同的图像尺度缩放，7个变换参数δ为：0.25,0.3535,0.5,0.7071,1.0,1.4142和2.0。

4.如权利要求1所述的街景图像的多尺度高维特征构建及量化方法，其特征在于，对训练好的残差神经网络提取得到的特征图尺寸为原图的1/32高维特征图进行两倍双线性上采样，并与原图的1/16高维特征图进行通道维度的叠合操作，完成深度特征融合。

5.如权利要求1所述的街景图像的多尺度高维特征构建及量化方法，其特征在于，注意力机制为：通过矩阵转置相乘的运算方式对感兴趣区域进行筛选，提高感兴趣部分的权重，进而实现对有用特征信息的提取和处理。

6.如权利要求1所述的街景图像的多尺度高维特征构建及量化方法，其特征在于，步骤3中的注意力机制评分方法流程包括：

②将深度特征X₁进行L2正则化，得到深度特征X₂；

7.如权利要求6所述的街景图像的多尺度高维特征构建及量化方法，其特征在于，激活公式如下：

f(x)＝max(0,x)。

8.如权利要求6所述的街景图像的多尺度高维特征构建及量化方法，其特征在于，L2正则化损失函数中对其权重添加相应的惩罚，具体公式如下：

对权重进行惩罚。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被计算机设备执行时，所述计算机设备执行上述权利要求1-8中任一项所述的街景图像的多尺度高维特征构建及量化方法。

10.一种计算机设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储计算机指令；

所述处理器执行所述存储器存储的计算机指令，以使所述计算机设备执行如权利要求1-8任一项所述的街景图像的多尺度高维特征构建及量化方法。