CN117078985A

CN117078985A - 一种景象匹配方法、装置、存储介质及电子设备

Info

Publication number: CN117078985A
Application number: CN202311344161.8A
Authority: CN
Inventors: 缪锐; 施航; 任祖杰; 孙沁璇; 朱琦; 刘洋; 袁勇; 彭风光; 庞心健
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2023-11-17
Anticipated expiration: 2043-10-17
Also published as: CN117078985B

Abstract

本说明书公开了一种景象匹配方法、装置、存储介质及电子设备。在本说明书提供的景象匹配方法中，获取实测图像与基准图像；将所述实测图像与所述基准图像输入预先训练的预测模型，所述预测模型至少包括分类子网、匹配子网、输出子网；通过所述分类子网对所述实测图像与所述基准图像进行分类，得到所述实测图像的类别与所述基准图像的类别；通过所述匹配子网，根据所述实测图像与所述基准图像，以及所述实测图像的类别与所述基准图像的类别，确定所述实测图像在所述基准图像中的定位结果；通过所述输出子网，根据所述匹配子网确定出的定位结果输出匹配结果。

Description

一种景象匹配方法、装置、存储介质及电子设备

技术领域

本说明书涉及图像处理领域，尤其涉及一种景象匹配方法、装置、存储介质及电子设备。

背景技术

景象匹配技术通过实时景象与基准景象匹配获取所需的定位信息。实时景象是由载体上可见光、红外或合成孔径雷达（Synthetic Aperture Radar，SAR）等探测设备获取，基准景象来源于卫星和航拍影像。景象匹配导航作为一种自主导航方法，能够在很大程度上弥补卫星和惯性导航的不足。

景象匹配是在不同的传感器、不同的视点、不同的时间和不同的天气条件下对同一场景拍摄的两幅图像进行视觉匹配的几何估计过程，目前，现有技术在实现景象匹配时，受限于网络模型及训练样本，在面向长航时场景的景象匹配能力不足。同时，受限于处理器的处理能力，无法有效实现处理速度和匹配精度平衡。另外，由于深度学习网络泛化性的限制，在特定数据集下训练的网络模型，当应用到与训练数据集不同源同质的数据集时，往往伴随着性能的骤降。

因此，如何实现精度较高且更加通用的景象匹配是一个亟待解决的问题。

发明内容

本说明书提供一种景象匹配方法、装置、存储介质及电子设备，以至少部分地解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种景象匹配方法，包括：

获取实测图像与基准图像；

将所述实测图像与所述基准图像输入预先训练的预测模型，所述预测模型至少包括分类子网、匹配子网、输出子网；

通过所述分类子网对所述实测图像与所述基准图像进行分类，得到所述实测图像的类别与所述基准图像的类别；

通过所述匹配子网，根据所述实测图像与所述基准图像，以及所述实测图像的类别与所述基准图像的类别，确定所述实测图像在所述基准图像中的定位结果；

通过所述输出子网，根据所述匹配子网确定出的定位结果输出匹配结果。

可选地，通过所述分类子网对所述实测图像与所述基准图像进行分类，具体包括：

将所述实测图像与所述基准图像确定为输入图像；

针对每个输入图像，确定该输入图像中各像素点的灰度值；

根据该输入图像中各像素点的灰度值确定该输入图像的类别。

可选地，根据该输入图像中各像素点的灰度值确定该输入图像的类别，具体包括：

按照预设的划分方式对该输入图像进行划分，得到该输入图像的分块图像；

针对该输入图像中的每个分块图像，根据该分块图像中各像素点的灰度值，确定该分块图像的特征数据；

根据所述特征数据确定该分块图像的类别；

根据该输入图像的各分块图像的类别，确定该输入图像的类别。

可选地，所述特征数据包括灰度均值、灰度方差、二阶矩、对比度、熵中的至少一种。

可选地，所述匹配子网至少包括特征提取层、区域选取层、特征处理层、分类层、正则化层、调整层、输出层；

通过所述匹配子网，根据所述实测图像与所述基准图像，以及所述实测图像的类别与所述基准图像的类别，确定所述实测图像在所述基准图像中的定位结果，具体包括：

将所述实测图像与所述基准图像确定为输入图像；

针对每个输入图像，通过所述特征提取层，提取该输入图像的图像特征；

将所述图像特征以及该输入图像的类别输入所述区域选取层，得到该输入图像的区域选取结果；

将所述图像特征输入所述特征处理层，得到该输入图像的中间特征；

将所述区域选取结果与所述中间特征输入所述分类层，得到该输入图像的分类结果；

将所述分类结果输入所述正则化层，得到所述正则化层输出的正则化结果；

通过所述调整层，根据所述正则化结果，对所述图像特征进行调整，得到该输入图像的优化图像特征；

将各输入图像的优化图像特征输入所述输出层，得到所述实测图像在所述基准图像中的定位结果。

可选地，所述特征处理层至少包括空间处理层、通道处理层，所述分类层至少包括实例分类层、图像分类层；

将所述图像特征输入所述特征处理层，得到该输入图像的中间特征，具体包括：

将所述图像特征输入所述空间处理层，得到该输入图像的空间特征；

将所述空间特征输入所述通道处理层，得到该输入图像的通道特征，作为该输入图像的中间特征；

将所述区域选取结果与所述中间特征输入所述分类层，得到该输入图像的分类结果，具体包括：

将所述区域选取结果与该输入图像的类别输入所述实例分类层，得到该输入图像的实例分类结果；

将所述中间特征输入所述图像分类层，得到该输入图像的图像分类结果；

将所述分类结果输入所述正则化层，具体包括：

将所述实例分类结果与所述图像分类结果输入所述正则化层。

可选地，在将所述实测图像与所述基准图像输入预先训练的预测模型之前，所述方法还包括：

根据所述基准图像的位姿，对所述实测图像的位姿进行矫正。

可选地，所述预测模型包括指定数量个匹配子网，所述指定数量大于一；

针对每个匹配子网，通过该匹配子网，根据所述实测图像与所述基准图像，以及所述实测图像的类别与所述基准图像的类别，确定所述实测图像在所述基准图像中的定位结果；

通过所述输出子网，根据所述匹配子网确定出的定位结果输出匹配结果，具体包括：

通过所述输出子网，根据各匹配子网确定出的各定位结果输出匹配结果。

可选地，各匹配子网接收的图像尺寸不同，所述预测模型还包括指定数量个降维子网；

在通过该匹配子网，根据所述实测图像与所述基准图像，以及所述实测图像的类别与所述基准图像的类别，确定所述实测图像在所述基准图像中的定位结果之前，所述方法还包括：

通过所述降维子网，对所述实测图像与所述基准图像进行下采样处理，使所述实测图像与所述基准图像的尺寸满足该匹配子网接收的图像尺寸。

可选地，预先训练预测模型，具体包括：

获取样本实测图像与样本基准图像，并确定所述样本实测图像在所述样本基准图像中的标注定位；

将所述样本实测图像与所述样本基准图像输入待训练的预测模型；

通过所述分类子网对所述样本实测图像与所述样本基准图像进行分类，得到所述样本实测图像的待优化类别与所述样本基准图像的待优化类别；

通过所述匹配子网，根据所述样本实测图像与所述样本基准图像，以及所述样本实测图像的待优化类别与所述样本基准图像的待优化类别，确定所述样本实测图像在所述样本基准图像中的待优化定位结果；

通过所述输出子网，根据所述匹配子网确定出的待优化定位结果输出待优化匹配结果；

以所述待优化匹配结果与所述标注定位之间的差异最小为优化目标，对所述预测模型进行训练。

本说明书提供的一种景象匹配装置，所述装置包括：

获取模块，用于获取实测图像与基准图像；

输入模块，用于将所述实测图像与所述基准图像输入预先训练的预测模型，所述预测模型至少包括分类子网、匹配子网、输出子网；

分类模块，用于通过所述分类子网对所述实测图像与所述基准图像进行分类，得到所述实测图像的类别与所述基准图像的类别；

定位模块，用于通过所述匹配子网，根据所述实测图像与所述基准图像，以及所述实测图像的类别与所述基准图像的类别，确定所述实测图像在所述基准图像中的定位结果；

输出模块，用于通过所述输出子网，根据所述匹配子网确定出的定位结果输出匹配结果。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述景象匹配方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述景象匹配方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的景象匹配方法中，获取实测图像与基准图像；将所述实测图像与所述基准图像输入预先训练的预测模型，所述预测模型至少包括分类子网、匹配子网、输出子网；通过所述分类子网对所述实测图像与所述基准图像进行分类，得到所述实测图像的类别与所述基准图像的类别；通过所述匹配子网，根据所述实测图像与所述基准图像，以及所述实测图像的类别与所述基准图像的类别，确定所述实测图像在所述基准图像中的定位结果；通过所述输出子网，根据所述匹配子网确定出的定位结果输出匹配结果。

在采用本说明书提供的景象匹配方法得到实测图像的匹配结果时，可通过预测模型，首先对实测图像与基准图像进行分类；随后根据实测图像与基准图像本身已经得到的分类确定出实测图像在基准图像中的定位结果；最终根据定位结果输出景象匹配的匹配结果。通过本方法可使实测图像与基准图像在各不同类别下均能够得到较为一致的图像特征，并最终得到一致性较强的匹配结果。在处理不同类别的实测图像与基准图像时，均能够得到较为稳定且准确地匹配结果。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种景象匹配方法的流程示意图；

图2为本说明书中一种预测模型的模型结构示意图；

图3为本说明书中一种匹配子网的结构示意图；

图4为本说明书中一种优化的预测模型的模型结构示意图；

图5为本说明书提供的一种景象匹配装置的示意图；

图6为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种景象匹配方法的流程示意图，具体包括以下步骤：

S100：获取实测图像与基准图像。

本说明书所提供的景象匹配方法中的所有步骤均可由任何具有计算功能的电子设备实现，例如终端、服务器等设备。

本方法主要应用于在航行途中对实时拍摄的实测图像与预先存储的基准图像进行匹配，以在基准图像中定位出实测图像所在的位置，进而确定出航行过程中所处的位置。因此，在此步骤中，可首先获取实测图像与基准图像。

其中，实测图像与基准图像中所包含的内容均为实际的景象。实测图像通常为通过图像采集设备实时采集到的景象，图像采集设备可包括但不限于红外图像采集设备、可见光图像采集设备、SAR等。基准图像通常为通过卫星、观测站等设施采集到的景象。一般情况下，由于采集位置、采集方式的不同，基准图像中所包含的景象的范围通常要比实测图像中包含的范围大得多。因此，在一个区域内采集到实测图像后，可实现在包含该区域的基准图像中匹配出实测图像所在的位置。

S102：将所述实测图像与所述基准图像输入预先训练的预测模型，所述预测模型至少包括分类子网、匹配子网、输出子网。

在本说明书提供的景象匹配方法中，采用预先训练的预测模型来预测实测图像在基准图像中的位置，以实现景象匹配。图2为本说明书提供的一种预测模型的结构示意图，如图2所示，预测模型中可至少包括分类子网、匹配子网、输出子网。

在此步骤中，可将步骤S100中获取到的实测图像与基准图像输入预测模型，以在后续步骤中使用。

S104：通过所述分类子网对所述实测图像与所述基准图像进行分类，得到所述实测图像的类别与所述基准图像的类别。

在步骤S102中将实测图像与基准图像输入预测模型后，首先可通过预测模型中的分类子网对实测图像与基准图像进行分类，得到实测图像的类别与基准图像的类别。

在实际应用中，对实测图像与基准图像进行分类的方式可存在多种，本说明书在此提供一种具体实施例以供参考。具体的，可将所述实测图像与所述基准图像确定为输入图像；针对每个输入图像，确定该输入图像中各像素点的灰度值；根据该输入图像中各像素点的灰度值确定该输入图像的类别。

在对图像进行分类时，对实测图像的分类与对基准图像的分类的方法是相同的。因此，可将实测图像与基准图像均确定为输入图像，并在分类的过程中对每个输入图像均进行相同的操作。在本方法中，对输入图像进行分类时，确定出的类别主要用于表征输入图像中的景象在被采集时所处的状态。例如，类别可包括但不限于白天、黑夜、晴天、雨天等。在此情况下，可通过对输入图像的灰度值进行分析以判断出输入图像的类别。

进一步地，在判断一个输入图像的类别时，需要整体地考虑到输入图像中每一个像素点的灰度值。而在部分情况下，可能会由于遮挡、抖动等因素，导致采集到的图像中部分区域的灰度值并不准确，从而影响到整体导致类别判断出错的情况。因此，可通过对输入图像进行分块判断的方式来避免上述问题。具体的，可按照预设的划分方式对该输入图像进行划分，得到该输入图像的分块图像；针对该输入图像中的每个分块图像，根据该分块图像中各像素点的灰度值，确定该分块图像的特征数据；根据所述特征数据确定该分块图像的类别；根据该输入图像的各分块图像的类别，确定该输入图像的类别。

其中，预设的划分方式可以是任意方式，得到的分块图像的大小、数量均可根据需求进行设置，本说明书对此不做具体限制。每个分块图像的分度特征可包括但不限于灰度均值、灰度方差、二阶矩、对比度、熵等数据。根据各分块图像的特征数据，便可确定出各分块图像的类别。最终，可根据各分块图像的类别确定出输入图像的类别。

在根据分块图像的类别确定输入图像的类别时，可根据一个类别在所有分块图像中出现的频率或占比来决定输入图像是否包含该类别。例如，如果半数以上的分块图像都包括类别“晴天”，那么便可确定输入图像也包括类别“晴天”。值得一提的是，一个分块图像或输入图像可包含不止一个类别。根据预设的类别的数量，输入图像最终可能会包含多个不同的类别。例如，输入图像最终可能会同时包含“晴天”、“黑夜”这两个不同的类别。

额外的，在根据分块图像的灰度值确定出分块图像包含的种类时，同样可存在多种方式，本说明书在此提供一种具体实施例以供参考。具体的，可针对分块图像的特征数据设置分段阈值，每段阈值分别代表不同的类别，当分块图像的特征数据落入一段阈值时，就相应地包含对应的类别。

举例来说，假设一个输入图像的高和宽分别为 H、W，划分后的每一个分块图像的大小为h×w。可利用以下公式计算每一个分块图像的灰度均值和灰度方差：

其中为分块图像k在像素位置/>处的灰度值，/>为图像的列下标，/>为图像的行下标，/>的取值范围是/>，其中K是分块图像的总个数，取值为。灰度均值用于表征分块图像本身的灰度特征，灰度方差用于表征分块图像的纹理特征。

以区分输入图像的类别为白天还是黑夜为例，根据白天类别下分块图像的数量和黑夜类别下的分块图像的数量/>来判断输入图像的拍摄时间是处于黑夜还是白天。具体可通过下述公式进行判断：

其中为判断输入图像是否为特殊场景的阈值，/>可根据具体需求进行设置，例如，可根据经验知识，将/>取值为2。如果判断的结果/>为2，则输入图像为特殊场景（如受到各种天气的影响无法判断为白天还是黑夜）；如果判断的结果/>为1，表明输入图像的成像时间是白天；如果判断的结果/>为0，表明输入图像的成像时间是黑夜。

在确定一个分块图像的类别为白天还是黑夜时，可按照下述公式确定：

其中k为分块图像的下标，K为分块图像的总个数，为灰度均值的阈值，为灰度方差的阈值，/>为分块图像k的中间结果。灰度均值的阈值与灰度方差的阈值均可根据具体需求进行设置，例如可取值为/>=100，/>=10。

将图像的灰度均值和灰度方差相结合，同时结合前述步骤中的结果，通过对灰度均值和灰度方差设置合适的阈值，对容易判断为特殊场景的分块图像生成标签。当分块图像k的标签/>为0时表示该分块图像是无干扰场景，当分块图像k的标签为1时表示该分块图像是特殊场景，当分块图像k的标签/>为2时表示该分块图像是较难区分的区域或复杂场景。

其中是/>时分块图像k的标签值，/>为/>时分块图像k的标签值。/>与/>的取值具体可根据下述公式确定：

其中为/>（白天场景）时，判断分块图像k为特殊场景的均值阈值，/>为/>时，判断分块图像k为殊场景的方差阈值，/>为时，判断分块图像k为干扰场景的方差阈值。上述各参数可根据具体需求进行设置，例如，可取值为/>。/>为（黑夜场景）时，判断分块图像k为特殊场景的均值阈值，/>为时，判断分块图像k为无干扰场景的方差阈值，/>为/>时，判断分块图像k为无干扰场景的方差阈值。上述各参数同样可根据具体需求进行设置，例如，取值为/>。通过以上步骤，计算多场景分块图像，将这些块对应的像素赋值，生成粗匹配的二值结果/>。

进一步地，结合灰度共生矩阵特性中的二阶矩、对比度、熵以及上述过程中的，可详细判断难以区分的分块图像。其中二阶矩反映了灰度分布的纹理细度与均匀性，如果该矩阵中的所有值都相等，则能量值很小，相反，如果某些值较大而另一些较小，则能量值较大；对比度反映了图像中纹理信息是否清晰的一个度量，偏离对角线的元素值越大，则图像的对比度越大；熵是图像中信息量的度量，纹理信息可认为是图像中随机性的度量，它反映了图像中纹理的复杂程度或非均匀程度。

具体可根据下述公式判断难以区分的分块图像的类别：

其中，和/>为类别标签；/>与/>分别表示/>、时得到的分块图像的二阶矩的均值。/>与/>分别表示、/>时得到的分块图像的熵的均值。/>与/>分别表示/>、/>时得到的分块图像的对比度的均值；ration表示在分块图像k进行更细的分块时，每个细分块的大小为/>，满足条件的细分块所占的比例，/>为该比例的阈值，/>、/>、/>为细分块图像二阶矩、熵、对比度三者偏移量的阈值。

上述方式仅以类别为白天或黑夜为例进行了举例，在实际应用中，还可存在其它更多的类别，同样可通过上述方式进行确定，例如晴天、下雨、下雪等，本说明书不再进行赘述。

S106：通过所述匹配子网，根据所述实测图像与所述基准图像，以及所述实测图像的类别与所述基准图像的类别，确定所述实测图像在所述基准图像中的定位结果。

在步骤S104中确定出实测图像的类别与基准图像的类别后，可在此步骤中，通过匹配子网，对实测图像与基准图像进行匹配，得到实测图像在匹配图像中的定位结果。

在实际应用中，匹配子网的网络结构可存在多种不同的模式，本说明书对此不做具体限制，只要能确保完成对实测图像在基准图像中的定位功能即可。在此，本说明书给出一种具体实施例以供参考。图3给出了本说明书中提供的一共匹配子网的具体结构，如图3所示，匹配子网中可至少包括特征提取层、区域选取层、特征处理层、分类层、正则化层、调整层、输出层。

在进行定位时，可具体的，将所述实测图像与所述基准图像确定为输入图像；针对每个输入图像，通过所述特征提取层，提取该输入图像的图像特征；将所述图像特征以及该输入图像的类别输入所述区域选取层，得到该输入图像的区域选取结果；将所述图像特征输入所述特征处理层，得到该输入图像的中间特征；将所述区域选取结果与所述中间特征输入所述分类层，得到该输入图像的分类结果；将所述分类结果输入所述正则化层，得到所述正则化层输出的正则化结果；通过所述调整层，根据所述正则化结果，对所述图像特征进行调整，得到该输入图像的优化图像特征；将各输入图像的优化图像特征输入所述输出层，得到所述实测图像在所述基准图像中的定位结果。

在上述实施例中，匹配子网得到定位结果的过程中对实测图像与基准图像的操作是相同的，因此，可首先将实测图像与基准图像均确定为输入图像。针对每个输入图像，首先可提取该输入图像的图像特征；随后可并行地将图像特征输入区域选取层与特征处理层，得到该输入图像的区域选取结果与中间特征，其中，区域选取结果为选取输入图像中特征较为明显的区域，例如标志性建筑等；根据得到的区域选取结果与中间特征，以及步骤S104中确定出的类别，可对输入图像的成像源进行更进一步地分类，得到输入图像所在的域；根据分类结果可在正则化层得到正则化结果，并对输入图像的图像特征进行优化，得到更加准确，更加通用的特征；最终，可在输入层中根据调整后的各图像特征确定出实测图像在基准图像中的定位结果。

更优的，如图3所示，所述特征处理层至少包括空间处理层、通道处理层，所述分类层至少包括实例分类层、图像分类层。在特征处理层中，可具体的，将所述图像特征输入所述空间处理层，得到该输入图像的空间特征；将所述空间特征输入所述通道处理层，得到该输入图像的通道特征，作为该输入图像的中间特征。在分类层中，可具体的，将所述区域选取结果与该输入图像的类别输入所述实例分类层，得到该输入图像的实例分类结果；将所述中间特征输入所述图像分类层，得到该输入图像的图像分类结果；在正则化层中，可将所述实例分类结果与所述图像分类结果输入所述正则化层。

在本说明书提供的匹配子网的分类层中，可包含实例分类层与图像分类层，其中，实例分类层用于根据输入图像的实例级特征来判断输入图像的成像源，也就是实例分类结果；图像级分类层用于根据输入图像的图像级特征来判断输入图像的成像源，也就是图像分类结果。不同成像源之间的图像的差异总体上可以分为以下两类情况：图像级差异，指宏观上的差异，比如整体图像风格差异、光线明暗程度、传感器采集成像方式不同造成的差异；实例级差异，指目标之间的差异，由于图像中目标的种类、形状等属性不同造成的实例级差异。图像分类层和实例分类层主要用于判别输入图像是来自哪一个成像源所在的域。实例分类结果与图像分类结果的表示形式与可取的范围均相同，二者均表征输入图像的成像源。其中，实例级特征主要为输入图像的局部特征，可包括但不限于输入图像中的标志性建筑、灰度差异情况等；图像级特征主要为输入图像的全局特征，可包括但不限于输入图像的拍摄时间、拍摄天气、图像类型等。最终，将实例分类结果与图像分类结果一同输入到正则化层中，对二者进行正则化处理，得到正则化结果。上述过程实际上可看作为一个域自适应学习的过程，其中域表示成像源。其目的为使提取层在面对不同成像源对相同景象采集的图像时，所提取出的图像特征在被优化后能够趋于一致以以达到域自适应的目的。换句话说，匹配子网在面对不同域的实测图像与基准图像时，都能稳定输出相似的定位结果。

在上述实施例中的图像处理层中，空间处理层位于通道处理层之前，即空间处理层属于浅层网络，通道处理层属于深层网络。在深度神经网络中，网络层数越浅，空间可利用的信息越丰富，随着网络层数的加深，通道数越来越多，因此可利用的通道信息也就随之增多。因此，首先在浅层网络中添加空间注意力机制（Space Attention，SA）。

/>

其中，F为输入的图像特征，和/>分别代表图像特征在空间维度进行的平均池化和最大池化操作，然后经过此操作步骤处理后，分别得到和/>特征。随后，将得到的特征按照通道维度拼接在一起。最后再经过5*5的卷积层/>，并通过激活函数/>，得到最终的空间注意力映射图，也即为有效的中间特征。

在添加空间注意力机制SA的基础上，在深层网络中添加通道注意力机制（ChannelAttention，CA）。

其中，F为经过上空间处理层处理之后得到的空间特征，和代表对输入的特征分别进行平均池化和最大池化操作，通过这两种操作聚合通道中的空间信息。然后将处理后的这两种特征分别经过由两个全连接层构成的多层感知机（Multilayer Perceptron，MLP）处理，随后相加再经过激活函数/>得到通道的权重系数，最后将权重系数与空间特征F相乘可以得到通道特征，也就是中间特征。

S108：通过所述输出子网，根据所述匹配子网确定出的定位结果输出匹配结果。

在步骤S106中得到匹配子网确定出的实测图像在基准图像中的定位结果后，可在此步骤中，通过输出子网根据定位结果输出最终的匹配结果。其中，定位结果可采用多种方式表示，例如，可在基准图像中采用图像框标注出实测图像所在的位置。由于基准图像是通过卫星等设备拍摄得到的，因此基准图像中各位置的具体经纬度都是已知的。基于此，输出子网所输出的匹配结果可以是实测图像所在的具体位置，可采用经纬度来表示。由此，便能够完成景象匹配，得到较为准确的匹配结果。

额外的，对于实测图像与基准图像，二者在被采集时的情况可能完全不同，受采集设备所处的位置、拍摄的角度等因素影响，得到实测图像与基准图像的位姿可能存在较大差别。因此，可实现将二者的位姿调整到同一状态，以更好地实现后续的匹配处理。具体的，可在将实测图像与基准图像输入预测模型之前，根据所述基准图像的位姿，对所述实测图像的位姿进行矫正。由于基准图像通常是经过预处理后存储的，因此可以基准图像的位姿为标准，对实测图像的位姿进行矫正，调整实测图像的位姿，使实测图像与基准图像最终处于同一位姿状态。

更优的，任何神经网络模型都可能会存在出现错误的情况，因此，在实际应用中，单一的匹配子网所得到的定位结果并非百分之百可靠。为此，可额外增加更多的匹配子网以解决上述问题。具体的，所述预测模型可包括指定数量个匹配子网，所述指定数量大于一。在通过匹配子网得到定位结果时，可针对每个匹配子网，通过该匹配子网，根据所述实测图像与所述基准图像，以及所述实测图像的类别与所述基准图像的类别，确定所述实测图像在所述基准图像中的定位结果。而在通过输出子网确定匹配结果时，可具体的，通过所述输出子网，根据各匹配子网确定出的各定位结果输出匹配结果。

在实际应用中，可采用多个匹配子网确定出多个定位结果，匹配子网的数量，也就是指定数量可根据具体需求进行设置，例如3、5等，本说明书对此不做具体限制。可以想到的，每个匹配子网得到的定位结果都会存在一些偏差，因此，可在输出子网中将各定位结果做平均处理，并输出相应的经纬度信息作为匹配结果。更进一步地，当某一个匹配子网所输出的定位结果与其它匹配子网所输出的定位结果之间的差异过大时，可认为该匹配子网本次定位出现错误，将该匹配子网输出的定位结果舍弃，依据其它匹配子网的输出结果确定最终的匹配结果。由此，便能够避免由于单一匹配子网引起的结果不准确的问题。

更进一步地，在上述采用多个匹配子网的方式下，可对各匹配子网做一些区分，使各匹配子网依据不同的数据输出的定位结果，使各定位结果更加全面，更具有参考价值。图4为本说明书提供的一种优化的预测模型，具体的，可如图4所示，令各匹配子网接收的图像尺寸不同，所述预测模型还包括指定数量个降维子网。针对每个匹配子网，在将实测图像与基准图像输入该匹配子网之前，还可通过所述降维子网，对所述实测图像与所述基准图像进行下采样处理，使所述实测图像与所述基准图像的尺寸满足该匹配子网接收的图像尺寸。

不同尺寸下的图像所包含的信息是不同的，能够从不同的角度描述图像的特征。因此，可使各匹配子网在结构相同的情况下，对接收的图像尺寸进行区分，使各匹配子网接收的图像尺寸不同。相应地，在每个匹配子网之前，均可设置一个降维子网，使各匹配子网接收相应尺寸的下采样图像。实测图像与基准图像在先经过下采样，尺寸与对应的匹配子网要求的图像尺寸相同后，再进入匹配子网。通过上述方式，能够使各匹配子网根据不同的信息给出定位结果，使各定位结果之间的差异更加真实，置信度更高，进而后续根据各定位结果得到的匹配结果也能够更加准确。可以想到的，在各匹配子网接收的图像尺寸不同的情况下，各降维子网中的参数也各不相同，对图像所进行的缩小程度不同。

额外的，本说明书中提供的预测模型可预先训练。具体的，可获取样本实测图像与样本基准图像，并确定所述样本实测图像在所述样本基准图像中的标注定位；将所述样本实测图像与所述样本基准图像输入待训练的预测模型；通过所述分类子网对所述样本实测图像与所述样本基准图像进行分类，得到所述样本实测图像的待优化类别与所述样本基准图像的待优化类别；通过所述匹配子网，根据所述样本实测图像与所述样本基准图像，以及所述样本实测图像的待优化类别与所述样本基准图像的待优化类别，确定所述样本实测图像在所述样本基准图像中的待优化定位结果；通过所述输出子网，根据所述匹配子网确定出的待优化定位结果输出待优化匹配结果；以所述待优化匹配结果与所述标注定位之间的差异最小为优化目标，对所述预测模型进行训练。

其中，图像分类层和实例分类层分别针对域偏移中的图像级差异和实例级差异问题进行设计，求解图像级损失表示, 实例级适应损失/>；利用两个分类层联合预测，通过对抗性特征对齐方式缩小匹配区域分布差异，添加一致性正则化损失/>；在域自适应学习中，分类层的优化目标是减少分类损失，而特征提取层的优化目标是增加分类层的分类损失，通过梯度反转的方式来控制训练过程，添加景象匹配损失/>。

图像分类层和实例分类层分别针对域偏移中的“图像级差异”和“实例级差异”问题进行设计。本部分结合了Focal-Loss的思想，求解图像级损失表示, 实例级适应损失/>；针对任意两个域作为源域与目标域，可按下述过程进行训练：

其中，与/>分别代表源域样本与目标域样本数量。/>代表判别全局图像特征的分类层，F代表特征提取层，/>代表源域中第/>个样本，/>代表对源域中的样本提取的特征。/>控制难以分类的权重。在训练过程中，Focal-loss把更多的权重放在难以分类的样本上。

其中，将第个图像中/>个候选区的实例分类层的输出表示为/>，/>表示当前区域来自目标域的概率，/>表示第/>个训练样本的域标签，/>表示源域，表示目标域。

在训练过程中特征提取层与分类层之间不断地进行博弈，特征提取层努力地生成更好的图像特征来让分类层产生混淆，使得分类层无法判断当前图像特征是属于源域还是目标域；而分类层则努力地优化自己，从而能够更准确地区分输入的图像特征是来自源域还是目标域。经过不断地这样博弈和优化，匹配子网最终能够经过特征提取层与调整层得到源域和目标域之间的域不变特征。

模型由于不能较好的区别前景与背景，实例级对齐模型可能被过多的低质量背景候选区域所主导。一致性正则化主要体现在实例分类层与图像分类层对其输入的特征来源是否一致以及判断的结果是否一致进行指导，如果两者判断不一致，则一致性损失就会增大以惩罚域训练模型。在不同级别（实例级和图像级）上强制分类层之间的一致性有助于学习景象匹配候选框预测的跨域鲁棒性。

本部分在实例分类层与图像分类层之间加入一致性正则化机制。图像级特征表示通常有助于减少由全局图像差异引起的域偏移，图像级特征通常以特征图的形式表示。在图像级特征中，每一个像素点对应原图像中的候选区域，由于图像分类层为每一个图像级特征表示产生激活输出，因此本部分将图像中所有激活的平均值作为其图像级概率。图像级特征表示是指在送入分类层之前基于感兴趣区域特征向量，有助于减少局部实例差异，例如对象外观、大小等。类似于图像级域适应，为此实例级特征向量训练了实例分类层，以对齐实例级分布。一致性正则化损失可以写成：

其中，代表图像级特征中激活的像素点的总数量，/>代表图像级特征上的位置，/>代表/>欧氏距离。/>代表示图像分类层输出属于源域的概率，代表实例分类层输出属于源域的概率。当这两个分类层预测的结果一致时，该一致性正则化损失就会减小，反之，当这两个分类层预测的结果不一致时，该一致性正则化损失就会增大。由于存在这种一致性正则化损失，利用实例级与图像分类层联合预测结果可以通过统一的相互学习来辅助景象匹配任务。

在域自适应学习中，分类层的优化目标是减少分类损失，而特征提取层的优化目标是增加分类层的分类损失。通过梯度反转来控制训练过程中这两个相反的优化目标，即在分类层通过判别式后，反转该分类层的分类损失的梯度，然后将其传播回特征提取层，能够使分类层最小化分类损失的同时也保证特征提取层最大化分类损失。相对应的景象匹配损失可概括如下：

其中，R代表候区域选取层，R从特征提取层F中得到图像特征，并输出具有统计特征场景分类等信息的类别边界框。代表总的景象匹配损失，它包括分类损失和回归损失。

将景象匹配损失、图像级损失和实例级损失以及一致性正则化损失结合起来进行端到端的深度学习，总损失可以写为：

其中，、/>平衡多个损失项的权衡参数，可根据具体需求进行设置。通过上述方式，便能够对预测模型整体进行训练，以优化预测模型中所有网络层的参数。

以上是本说明书提供的景象匹配方法，基于同样的思路，本说明书还提供了相应的景象匹配装置，如图5所示。

图5为本说明书提供的一种景象匹配装置示意图，具体包括：

获取模块200，用于获取实测图像与基准图像；

输入模块202，用于将所述实测图像与所述基准图像输入预先训练的预测模型，所述预测模型至少包括分类子网、匹配子网、输出子网；

分类模块204，用于通过所述分类子网对所述实测图像与所述基准图像进行分类，得到所述实测图像的类别与所述基准图像的类别；

定位模块206，用于通过所述匹配子网，根据所述实测图像与所述基准图像，以及所述实测图像的类别与所述基准图像的类别，确定所述实测图像在所述基准图像中的定位结果；

输出模块208，用于通过所述输出子网，根据所述匹配子网确定出的定位结果输出匹配结果。

可选地，所述分类模块204，具体用于将所述实测图像与所述基准图像确定为输入图像；针对每个输入图像，确定该输入图像中各像素点的灰度值；根据该输入图像中各像素点的灰度值确定该输入图像的类别。

可选地，所述分类模块204，具体用于按照预设的划分方式对该输入图像进行划分，得到该输入图像的分块图像；针对该输入图像中的每个分块图像，根据该分块图像中各像素点的灰度值，确定该分块图像的特征数据；根据所述特征数据确定该分块图像的类别；根据该输入图像的各分块图像的类别，确定该输入图像的类别。

所述定位模块206，具体用于将所述实测图像与所述基准图像确定为输入图像；针对每个输入图像，通过所述特征提取层，提取该输入图像的图像特征；将所述图像特征以及该输入图像的类别输入所述区域选取层，得到该输入图像的区域选取结果；将所述图像特征输入所述特征处理层，得到该输入图像的中间特征；将所述区域选取结果与所述中间特征输入所述分类层，得到该输入图像的分类结果；将所述分类结果输入所述正则化层，得到所述正则化层输出的正则化结果；通过所述调整层，根据所述正则化结果，对所述图像特征进行调整，得到该输入图像的优化图像特征；将各输入图像的优化图像特征输入所述输出层，得到所述实测图像在所述基准图像中的定位结果。

所述定位模块206，具体用于将所述图像特征输入所述空间处理层，得到该输入图像的空间特征；将所述空间特征输入所述通道处理层，得到该输入图像的通道特征，作为该输入图像的中间特征；将所述区域选取结果与该输入图像的类别输入所述实例分类层，得到该输入图像的实例分类结果；将所述中间特征输入所述图像分类层，得到该输入图像的图像分类结果；将所述实例分类结果与所述图像分类结果输入所述正则化层。

可选地，所述装置还包括矫正模块210，具体用于根据所述基准图像的位姿，对所述实测图像的位姿进行矫正。

所述定位模块206，具体用于针对每个匹配子网，通过该匹配子网，根据所述实测图像与所述基准图像，以及所述实测图像的类别与所述基准图像的类别，确定所述实测图像在所述基准图像中的定位结果；

所述输出模块208，具体用于通过所述输出子网，根据各匹配子网确定出的各定位结果输出匹配结果。

所述装置还包括降维模块212，具体用于通过所述降维子网，对所述实测图像与所述基准图像进行下采样处理，使所述实测图像与所述基准图像的尺寸满足该匹配子网接收的图像尺寸。

可选地，所述装置还包括训练模块214，具体用于获取样本实测图像与样本基准图像，并确定所述样本实测图像在所述样本基准图像中的标注定位；将所述样本实测图像与所述样本基准图像输入待训练的预测模型；通过所述分类子网对所述样本实测图像与所述样本基准图像进行分类，得到所述样本实测图像的待优化类别与所述样本基准图像的待优化类别；通过所述匹配子网，根据所述样本实测图像与所述样本基准图像，以及所述样本实测图像的待优化类别与所述样本基准图像的待优化类别，确定所述样本实测图像在所述样本基准图像中的待优化定位结果；通过所述输出子网，根据所述匹配子网确定出的待优化定位结果输出待优化匹配结果；以所述待优化匹配结果与所述标注定位之间的差异最小为优化目标，对所述预测模型进行训练。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的景象匹配方法。

本说明书还提供了图6所示的电子设备的示意结构图。如图6所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的景象匹配方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（ProgrammableLogic Device, PLD）（例如现场可编程门阵列（Field Programmable Gate Array，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（HardwareDescription Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（AdvancedBoolean Expression Language）、AHDL（Altera Hardware Description Language）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（JavaHardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（Ruby HardwareDescription Language）等，目前最普遍使用的是VHDL（Very-High-Speed IntegratedCircuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种景象匹配方法，其特征在于，包括：

获取实测图像与基准图像；

2.如权利要求1所述的方法，其特征在于，通过所述分类子网对所述实测图像与所述基准图像进行分类，具体包括：

将所述实测图像与所述基准图像确定为输入图像；

针对每个输入图像，确定该输入图像中各像素点的灰度值；

3.如权利要求2所述的方法，其特征在于，根据该输入图像中各像素点的灰度值确定该输入图像的类别，具体包括：

根据所述特征数据确定该分块图像的类别；

4.如权利要求3所述的方法，其特征在于，所述特征数据包括灰度均值、灰度方差、二阶矩、对比度、熵中的至少一种。

5.如权利要求1所述的方法，其特征在于，所述匹配子网至少包括特征提取层、区域选取层、特征处理层、分类层、正则化层、调整层、输出层；

将所述实测图像与所述基准图像确定为输入图像；

6.如权利要求5所述的方法，其特征在于，所述特征处理层至少包括空间处理层、通道处理层，所述分类层至少包括实例分类层、图像分类层；

将所述分类结果输入所述正则化层，具体包括：

7.如权利要求1所述的方法，其特征在于，在将所述实测图像与所述基准图像输入预先训练的预测模型之前，所述方法还包括：

8.如权利要求1所述的方法，其特征在于，所述预测模型包括指定数量个匹配子网，所述指定数量大于一；

9.如权利要求8所述的方法，其特征在于，各匹配子网接收的图像尺寸不同，所述预测模型还包括指定数量个降维子网；

10.如权利要求1所述的方法，其特征在于，预先训练预测模型，具体包括：

11.一种景象匹配装置，其特征在于，包括：

获取模块，用于获取实测图像与基准图像；

12.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~10任一项所述的方法。

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~10任一项所述的方法。