CN115984302A

CN115984302A - 基于稀疏混合专家网络预训练的多模态遥感图像处理方法

Info

Publication number: CN115984302A
Application number: CN202211635300.8A
Authority: CN
Inventors: 孙显; 付琨; 王佩瑾; 常浩; 卢宛萱; 毕涵博; 何琪彬; 容雪娥
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-04-18
Anticipated expiration: 2042-12-19
Also published as: EP4390859A1; CN115984302B

Abstract

本申请提供基于稀疏混合专家网络预训练的多模态遥感图像处理方法，该方法包括：将待处理图像集输入通用编码单元，以获取通用编码单元输出的中间图像集；中间图像集包括若干中间图像组，每一中间图像组中均包括目标数量的中间图像；将中间图像集输入专用编码单元，以获取专用编码单元输出的处理后图像集；专用编码单元包括若干编码模块组，每一编码模块组均包括若干编码模块；每一中间图像组分别被输入与其对应的模态类型相同的编码模块组中每一编码模块内；将处理后图像集输入译码单元，以获取译码单元输出的处理结果。本申请通过上述方法，降低了专用编码单元内每一编码模块的图像处理数量，从而提升了整体的处理速度，减小处理耗时。

Description

基于稀疏混合专家网络预训练的多模态遥感图像处理方法

背景技术

在使用神经网络模型进行图像处理任务(如目标识别)时，需要先对初始的神经网络模型进行训练从而使得训练后的神经网络模型能够完成对应的图像处理任务。

在相关的一些技术中，会在对初始的神经网络模型进行实际任务的训练前，先对其进行预训练，以使得初始的神经网络模型能够通过预训练学习到先验知识，从而在后续进行实际任务的训练时，预训练后的神经网络模型能够尽快达到训练要求，且训练后的神经网络模型对实际任务的处理结果更加精准。

但在进行遥感图像的预训练任务(如像素修复等)时，由于遥感图像往往具有多个模态类型的图像(如光学图像、合成孔径雷达图像或近红外图像等)，且单位面积的遥感图像对应的地理或景象信息的数据量，远超其他图像(如普通的街景图)，故而在多模态遥感图像的相关处理任务的预训练中，神经网络模型在运行中产生和处理的参数的数量也是巨大的(可以达到百亿级别的数量)，导致对其进行预训练时，若要达到与其他图像预训练后相同的模型性能，在对图像进行处理时的时间复杂度和计算复杂度都会大幅度的增长，使得整体的处理耗时较长。

发明内容

有鉴于此，本申请提供一种基于稀疏混合专家网络预训练的多模态遥感图像处理方法，以解决现有技术中，对多模态图像的相关处理任务进行预训练时，进行图像处理的过程中时间复杂度和计算复杂度都会呈指数型增长，使得整体的处理耗时较长的问题。

在本申请的一方面，提供一种基于稀疏混合专家网络预训练的多模态遥感图像处理方法，包括：

将待处理图像集输入通用编码单元，以获取通用编码单元输出的中间图像集；待处理图像集中包括若干待处理图像，若干待处理图像中至少包括两种模态类型的图像；中间图像集包括若干中间图像组，每一中间图像组中均包括目标数量的中间图像，中间图像为经通用编码单元处理后的待处理图像；同一中间图像组中的每一中间图像对应同一模态类型，任意两个中间图像组之间对应的模态类型不同。

将中间图像集输入专用编码单元，以获取专用编码单元输出的处理后图像集；专用编码单元包括若干编码模块组，每一编码模块组均包括若干编码模块；每一编码模块组均对应一个模态类型，编码模块用于对其所在编码模块组对应的模态类型的中间图像进行单模态编码处理；当专用编码单元接收到中间图像集后，将每一中间图像组分别输入与其对应的模态类型相同的编码模块组中每一编码模块内。

将处理后图像集输入译码单元，以获取译码单元输出的处理结果。

在本申请的一种示例性实施例中，编码模块组的数量与中间图像组的数量相同，且若干编码模块组和若干中间图像组均按照第一顺序排列。

在本申请的一种示例性实施例中，每一编码模块组中编码模块的数量均相同。

在本申请的一种示例性实施例中，每一中间图像组中的中间图像均按第二顺序排列，不同中间图像组内排序相同的中间图像均对应同一地理区域。

在本申请的一种示例性实施例中，待处理图像集中包括若干待处理图像组，每一待处理图像组中均包括目标数量的待处理图像。

每一待处理图像组中的待处理图像均按第二顺序排列，不同待处理图像组内排序相同的待处理图像均对应同一地理区域。

同一待处理图像组中的每一待处理图像对应同一模态类型，任意两个待处理图像组之间对应的模态类型不同。

在本申请的一种示例性实施例中，当通用编码单元接收到待处理图像后，对每一待处理图像组中排序相同的待处理图像进行多模态联合编码处理。

在本申请的一种示例性实施例中，在将待处理图像集输入通用编码单元之前，方法还包括：

获取每一目标地理区域对应的原始图像组；每一原始图像组中包括同一目标地理区域的对应的至少两个原始图像，且每一原始图像组中原始图像的数量相同，同一原始图像组中若干原始图像对应的模态类型相互不同。

使用同一拆分规则分别对每一原始图像进行图像分割，得到若干候选待处理图像。

使用预设数据选取规则对若干候选待处理图像进行数据选取，得到待处理图像集。

在本申请的另一方面，提供一种基于稀疏混合专家网络预训练的多模态遥感图像处理装置，包括：

第一处理模块，用于将待处理图像集输入通用编码单元，以获取通用编码单元输出的中间图像集；待处理图像集中包括若干待处理图像，若干待处理图像中至少包括两种模态类型的图像；中间图像集包括若干中间图像组，每一中间图像组中均包括目标数量的中间图像，中间图像为经通用编码单元处理后的待处理图像；同一中间图像组中的每一中间图像对应同一模态类型，任意两个中间图像组之间对应的模态类型不同。

第二处理模块，用于将中间图像集输入专用编码单元，以获取专用编码单元输出的处理后图像集；专用编码单元包括若干编码模块组，每一编码模块组均包括若干编码模块；每一编码模块组均对应一个模态类型，编码模块用于对其所在编码模块组对应的模态类型的中间图像进行单模态编码处理；当专用编码单元接收到中间图像集后，将每一中间图像组分别输入与其对应的模态类型相同的编码模块组中每一编码模块内。

第三处理模块，用于将处理后图像集输入译码单元，以获取译码单元输出的处理结果。

在本申请的一种示例性实施例中，多模态遥感图像处理装置还包括：

获取模块，用于获取每一目标地理区域对应的原始图像组；每一原始图像组中包括同一目标地理区域的对应的至少两个原始图像，且每一原始图像组中原始图像的数量相同，同一原始图像组中若干原始图像对应的模态类型相互不同。

分割模块，用于使用同一拆分规则分别对每一原始图像进行图像分割，得到若干候选待处理图像。

抽取模块，用于使用预设数据选取规则对若干候选待处理图像进行数据选取，得到待处理图像集。

在本申请的另一方面，提供一种电子设备，包括处理器和存储器。

处理器通过调用存储器存储的程序或指令，用于执行上述任一项方法的步骤。

在本申请的另一方面，提供一种非瞬时性计算机可读存储介质，非瞬时性计算机可读存储介质存储程序或指令，程序或指令使计算机执行上述任一项方法的步骤。

有益效果：

本申请提供的基于稀疏混合专家网络预训练的多模态遥感图像处理方法，在获取到包含多种模态类型的待处理图像的待处理图像集后，会通过通用编码单元对待处理图像集中每一待处理图像进行处理，并将输出的中间图像组成中间图像集。

专用编码单元在接收到中间图像集，会将每一中间图像组分别输入与其对应的模态类型相同的编码模块组中每一编码模块内，以使得每一编码模块组中的编码模块能够专用于对其自身对应的模态类型的中间图像进行处理，以在处理过程中调整自身内部参数，使得自身能够针对性的学习到对应的模态类型的先验知识，使得处理了对应的模态类型的足够数量的中间图像后的编码模块，可以在后续进行其他处理任务或训练时，能够对该模态类型的图像更好的进行编码处理，使得编码后的图像保留更多更重要的信息。

本申请中，将专用编码单元内的每一编码模块组设置为只处理其对应的模态类型的中间图像，使得多个编码模块组可以并行的分别处理不同模态类型的中间图像，而不用每一编码模块对所有模态类型的中间图像进行处理，提高了处理效率。且由于每一编码模块组中的编码模块仅对单一的模态类型的中间图像进行处理，使得其对自身对应的模态类型的中间图像处理后保留的图像信息的准确度和重要度更高，能够更好对该模态类型的中间图像进行处理，使得译码单元输出的处理结果的准确性更高。如此，本申请通过上述方法，实现了在保证处理结果的准确性的情况下，降低了专用编码单元内每一编码模块的图像处理数量，使得整体处理过程中的时间复杂度和计算复杂度降低，从而提升了整体的处理速度，减小处理耗时。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请一实施例提供的一种基于稀疏混合专家网络预训练的多模态遥感图像处理方法的流程图；

图2为本申请另一实施例提供的一种基于稀疏混合专家网络预训练的多模态遥感图像处理方法的流程图；

图3为本申请实施例提供的图像处理器的结构框图；

图4为本申请一实施例提供的一种基于稀疏混合专家网络预训练的多模态遥感图像处理装置的结构框图；

图5为本申请一另实施例提供的一种基于稀疏混合专家网络预训练的多模态遥感图像处理装置的结构框图。

具体实施方式

下面结合附图对本申请实施例进行详细描述。

需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合；并且，基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

名词解释：

先验知识，即提前验证的知识。在神经网络模型获取到先验知识后，可以更好推断后续处理任务所需要的知识。

请参考图1所示，在本申请的一方面，提供一种基于稀疏混合专家网络预训练的多模态遥感图像处理方法，可应用于任一具有数据处理能力的电子设备上，如电脑、笔记本或服务器等。

该方法包括以下步骤：

S100，将待处理图像集输入通用编码单元，以获取通用编码单元输出的中间图像集。

待处理图像集中包括若干待处理图像，若干待处理图像中至少包括两种模态类型的图像。具体的，待处理图像可以为遥感图像，模态类型可以包括光学类型、雷达类型或近红外类型等。例如，若遥感图像为光学遥感图像，则其对应的模态类型则为光学类型，以此类推。

中间图像集包括若干中间图像组，每一中间图像组中均包括目标数量的中间图像，中间图像为经通用编码单元处理后的待处理图像；同一中间图像组中的每一中间图像对应同一模态类型，任意两个中间图像组之间对应的模态类型不同。其中，目标数量为根据实际需求设置的数量，本领域技术人员能够根据实际需求确定出目标数量的具体数值。

具体的，本实施例中，中间图像集可以以若干中间图像的形式存在，其中每一中间图像组仅为方便描述和理解所定义的概念，并不严格限定为同一中间图像组需要进行特殊标记或存储于同一文件夹内或形成一个特定的集合，而是仅指同一模态类型的若干中间图像。

在具体实施过程中，待处理图像集中待处理图像的排列或设置方式可以设置为和中间图像组相同，以使通用编码单元的输入和输出的结构相同。也可以不限制待处理图像集中待处理图像的排列或设置方式，而是由通用编码单元将其处理后得到的中间图像设置为中间图像集的格式。

具体的，通用编码单元可以包括若干通用编码模块，如归一化模块、自注意力模块、卷积模块等。当然，在一些实施例中，归一化模块、自注意力模块、卷积模块也可以称作为一化层、自注意力层、卷积层等。

S200，将中间图像集输入专用编码单元，以获取专用编码单元输出的处理后图像集。

专用编码单元包括若干编码模块组，每一编码模块组均包括若干编码模块；每一编码模块组均对应一个模态类型，编码模块用于对其所在编码模块组对应的模态类型的中间图像进行单模态编码处理；当专用编码单元接收到中间图像集后，将每一中间图像组分别输入与其对应的模态类型相同的编码模块组中每一编码模块内。

本实施例中，编码模块组可以通过对每一编码模块进行编号或排序，在根据相应的规则确定出哪些编码模块属于同一个编码模块组，例如该规则可以为在编号为1-5的编码模块为同一个编码模块组且对应的模态类型为光学，以此类推。

本实施例中，一个编码模块组中的若干编码模块，可以是专用于处理其所在的编码模块组对应的模态类型的图像。其对图像进行的单模态编码处理可以为对图像信息进行训练学习或对图像信息进行图像特征提取等。本实施例中，编码模块可以为MLP(Multilayer Perceptron多层感知机)等，具体的，本实施例中编码模块为双层MLP。

具体的，本实施例中，同一编码模块组中每一编码模块均用于接收和处理其所在编码模块组对应的模态类型的所有中间图像，使得每一编码模块获取到的中间图像相同，使得同一编码模块组中每一编码模块的性能能够更加均衡。

相应的，在生成处理后图像集时，需要对同一编码模块组内的每一编码模块输出的针对同一中间图像的输出数据进行融合(如加权融合等)，以及得到该中间图像对应的处理后图像。

S300，将处理后图像集输入译码单元，以获取译码单元输出的处理结果。处理结果可以为待处理图像中具有预设物品的概率、待处理图像对应的三维模型或待处理图像对应的修复后图像等。

其中，译码单元对处理后图像集的处理可以为对处理后图像进行目标识别、像素修复或三维重建等。相应的，在译码单元对应的处理任务不同时，处理结果也不同。

具体的，本实施例中，通用编码单元、专用编码单元和译码单元可以同属于同一个图像处理器。相应的，该图像处理器可以具有对应的处理任务，如目标识别、像素修复或三维重建等。本领域技术人员能够在本申请公开的技术方案中，确定出通用编码单元、专用编码单元和译码单元的设置方式以及内部结构等。

本实施例提供的基于稀疏混合专家网络预训练的多模态遥感图像处理方法，可以是对训练后的图像处理器进行实际使用过程中的方法步骤，也可以是对图像处理器进行预训练过程中通用编码单元、专用编码单元和译码单元运行的方法步骤。

具体的，本实施例中，上述步骤S100-步骤S300为在对图像处理器进行针对遥感图像处理的预训练过程的方法步骤，相应的，图像处理器对应的训预练任务为像素修复。

具体的，本实施例中提供的一种基于稀疏混合专家网络预训练的多模态遥感图像处理方法，可以基于国产化的框架Mindspore来实现，例如，本实施例中的通用编码单元、专用编码单元和译码单元，可以部署在使用框架Mindspore的服务器内进行运行。

在上述情况下，本实施例中，待处理图像可以为对初始图像(即正常的图像)进行像素混淆处理或像素破坏处理后的图像。通用编码单元对待处理图像的处理可以为对待处理图像的像素特征进行不区分模态类型的像素特征提取和学习，专用编码单元对待处理图像的处理可以为针对单一模态类型的中间图像进行像素特征提取和学习。译码单元对处理后图像集的处理可以为对处理后图像中被像素混淆处理或像素破坏处理修改的像素进行像素修复，以输出修复后图像(即处理结果)。在进行是否预训练要求的确定时，可以通过对译码单元输出的修复后图像与初始图像的差异度进行，若对同一批验证图像，修复后图像与初始图像之间的差异度均小于设定差异度阈值，则确定达到了预训练要求，可以停止进行后续的预训练。差异度阈值可以为0.01％-5％，本申请中，差异度阈值为1％。

本实施例中，将图像处理器的预训练任务设置为像素修复，可以使得通用编码单元和专用编码单元更好的学习到遥感图像中像素点分布的特征，以使得在对预训练后的图像处理器进行实际任务(如目标识别等)的训练时，能够基于预训练过程中学习到的先验知识，更快的达到训练目标，且训练后的图像处理器对实际任务的处理结果更加准确。可以理解的是，本实施例中，实际任务和预训练任务可以相同，仅是为了区别不同环节的任务作出的名称区别。

本实施例提供的基于稀疏混合专家网络预训练的多模态遥感图像处理方法，在获取到包含多种模态类型的待处理图像的待处理图像集后，会通过通用编码单元对待处理图像集中每一待处理图像进行处理，并将输出的中间图像组成中间图像集。

本实施例中，将专用编码单元内的每一编码模块组设置为只处理其对应的模态类型的中间图像，使得多个编码模块组可以并行的分别处理不同模态类型的中间图像，而不用每一编码模块对所有模态类型的中间图像进行处理，提高了处理效率。且由于每一编码模块组中的编码模块仅对单一的模态类型的中间图像进行处理，使得其对自身对应的模态类型的中间图像处理后保留的图像信息的准确度和重要度更高，能够更好对该模态类型的中间图像进行处理，使得译码单元输出的处理结果的准确性更高。如此，本实施例通过上述方法，实现了在保证处理结果的准确性的情况下，降低了专用编码单元内每一编码模块的图像处理数量，使得整体处理过程中的时间复杂度和计算复杂度降低，从而提升了整体的处理速度，减小处理耗时。经测试，即使图像处理器在运行中产生和处理的参数的数量达到百亿级别，也能实现与普通图像的处理相近的处理速度。

第一顺序可以为对应的模态类型为光学类型的编码模块组或中间图像组排列在最前，雷达类型的编码模块组或中间图像组排列在中间，近红外类型的编码模块组或中间图像组排列在最后。

可以理解的是，上述方式仅为针对模态类型为3个的情况下的示例性举例，本领域技术人员能够根据实际需求调整模态类型的数量以及编码模块组或中间图像组的排列顺序作为第一顺序。

本实施例中，将编码模块组的数量与中间图像组的数量设置为相同，且使用同一种顺序进行排列，使得在不对中间图像或中间图像组进行模态类型的标记的情况下，专用编码单元即可根据中间图像组的排列顺序确定出每一中间图像组对应的编码模块组。如此，能够减少相关人员对初始图像或中间图像的处理工作，且专用编码单元也不用设置用于识别模态类型的模态识别模块(如门控网络等)，以此减相关工作人员的工作量，且降低了专用编码单元的设计难度，且不设置模态识别模块也就减少了专用编码单元的逻辑处理操作数，从而提高了专用编码单元的工作效率。

在本申请的一种示例性实施例中，每一编码模块组中编码模块的数量均相同。每一编码模块组中的编码模块数量至少根据以下之一确定：待处理图像的数量、若干待处理图像对应的模态类型的数量、专用编码单元处理过程中产生和处理的参数的数量。

本实施例中，每一编码模块组中的编码模块数量相同，可以使得每一编码模块组在进行与训练后，可以适用于多种实际任务的训练，而不是仅适用于一种实际任务的训练。如此，在预训练后的图像处理器需要被复制出多个，且多个预训练后的图像处理器需要分别进行不同的实际任务的训练的情况下，仅需要进行一次预训练即可，而不用针对每一实际任务分别对初始的图像处理器进行相应的预训练，从而提高整体的训练效率。

本领域技术人员也能够预设的预训练需求和使用的遥感图像的数据量确定出每一编码模块组中编码模块的数量。

其中，第二顺序可以是任意能够规定中间图像组中的中间图像的排序顺序的规则，例如，根据图像选择顺序确定中间图像在中间图像组的排序，仅需保证不同中间图像组内排序相同的中间图像均对应同一地理区域即可。

具体的，对应同一地理区域可以理解为对同一地理区域的地理信息进行获取。

本实施例中，不同中间图像组内排序相同的中间图像均对应同一地理区域，使得不同的编码模块处理的中间图像对应的地理区域均相同，避免了因不同编码模块处理不同地理区域的不同模态类型的图像，导致编码模块的处理性能不均衡的问题发生，从而提高专用编码单元的编码模块之间的性能更为均衡，以更好地适应不同的实际任务。

在本申请的一种示例性实施例中，待处理图像集中包括若干待处理图像组，每一待处理图像组中均包括目标数量的待处理图像。即每一待处理图像组中与中间图像组中的中间图像的数量相同。

从上述内容可以看出，待处理图像集与中间图像集内图像的排列方法相同，如此，能够使得通用编码单元仅需将接收到的待处理图像以相同的顺序进行输出即可，而不需要进行重新排序来得到中间图像集，以此减少通用编码单元的处理操作，提升处理效率。

具体的，待处理图像集可以设置为符合以下条件：

A＝(a₁，a₂，...，a_i，...，a_n)，i＝1，2，...，n。

其中，A为待处理图像集，a_i为A中第i张待处理图像，其中，n为A中待处理图像的数量，且n为A中待处理图像对应的模态类型数量(去重后)的整数倍。

在A中待处理图像对应的模态类型数量为m的情况下，a₁，a₂，...，a_1*n/m为A中第一个待处理图像组，同理，a_j*n/m+1，a_j*n/m+2，...，a_(j+1)/m为A中第j个待处理图像组，j＝1，2，...，m。

a_g，a_1*n/m+g，a_2*n/m+g，...，a_j*n/m+g，...，a_(m-1)*n/m+g对应同一地理区域，其中，g＝1，2，...，n/m。

在上述情况下，通用编码单元和专用编码单元均能够通过n和m的具体数值直接确定出每一图像组对应的所有图像，也能够确定出A中对应同一地理的所有图像。

具体的，多模态联合编码处理包括：

将每一待处理图像组中排序相同的待处理图像(即a_g，a_1*n/m+g，a_2*n/m+g，...，a_j*n/m+g，...，a_(m-1)*n/m+g)进行局部特征提取，得到每一待处理图像对应的若干局部特征。

确定每一局部特征对应的特征损失值。

将对应的特征损失值大于预设损失阈值的局部特征确定为目标局部特征。

根据与目标局部特征对应待处理图像中同一局部区域的局部特征，确定出目标局部特征的替换局部特征。

使用替换局部特征对目标局部特征进行替换。

如此，本实施例中，在通用编码单元内，能够根据对应同一地理区域的不同模态类型的待处理图像之间局部特征，对特征损失值大于预设损失阈值的局部特征进行特征替换，以提升目标局部特征对应的待处理图像的图像质量，从而实现了跨模态的图像互补，以使得后续的处理结果更加准确。

同时，本申请中，通过前述内容确定出的待处理图像集内待处理图像的排列方式，使得通用编码单元能够在不需要对待处理图像进行对应地理区域标注和模态类型标注的情况下，即可直接根据排序确定出每一待处理图像对应的模态类型以及同一地理区域对应的所有待处理图像，以减少相关人员对初始图像的处理工作。

请参考图2所示，在本申请的一种示例性实施例中，在将待处理图像集输入通用编码单元之前，方法还包括：

S010，获取每一目标地理区域对应的原始图像组。原始图像组可以为多个，不同原始图像组对应的地理区域存在差异，每一原始图像组中包括同一目标地理区域的对应的至少两个原始图像，且每一原始图像组中原始图像的数量相同，同一原始图像组中若干原始图像对应的模态类型相互不同。本实施例中，原始图像为遥感图像。

S020，使用同一拆分规则分别对每一原始图像进行图像分割，得到若干候选待处理图像。

使用同一拆分规则分别对每一原始图像可以使得同一目标地理区域对应的多个模态类型的原始图像被拆分后，得到的候选待处理图像(可以理解为图像分片)也是能够相互对应的，且每一候选待处理图像的图像尺寸达到预设要求。本领域技术人员能够根据图像尺寸的预设要求得到拆分规则，此处不加赘述。

S030，使用预设数据选取规则对若干候选待处理图像进行数据选取，得到待处理图像集。

本实施例中，原始图像为遥感图像，由于遥感图像的尺寸较大，若直接输入图像处理器，会使得内部的处理效率降低，导致整体的处理耗时过长。故而，本实施例中会对原始图像进行图像分割，以使得候选待处理图像的图像尺寸达到预设要求，从而提高图像处理器整体的处理效率，减少预设耗时。

进一步的，本实施例中，选取规则为：

从目标原始图像组中随机选取K个候选待处理图像作为第一待处理图像。K的取值可以根据实际需求进行设置，本实施例中K＝10-50。具体的，本实施例中，K＝16。

从每一其他原始图像组中，将与每一第一待处理图像对应同一地理区域的候选待处理图像作为第二待处理图像。

将每一第一待处理图像和每一第二待处理图像确定为待处理图像，以得到待处理图像集。

其中，对目标原始图像组中的候选待处理图像进行随机选取，可以使得最终确定出的待处理图像同时包含多个目标地理区域的地物信息，使得在同一轮预训练过程中，图像处理器可以更好的学习到多种地物信息的图像特征。

在本申请的一种示例性实施例中，一个通用编码单元和一个专用编码单元可以看作为一个编码器，一个译码单元可以看作为一个译码器，图像处理器中可以包含多个编码器和多个译码器(此时，图像处理器可以看作为一个神经网络模型)，在编码器为多个的情况下，多个编码器顺序连接，编码器的输入即为待处理图像集，输出为处理后图像集，可以理解的是前一个编码器的输出会作为后一个编码器的输入，即待处理图像集合处理后图像集内的图像排列方式相同。译码器为多个的情况下，多个译码器顺序连接，且每一个译码器均与排序最后的编码器连接，即排序最后的编码器的输出会输入每一个译码器中，且前一个译码器的输出也会作为后一个译码器的输入，排序最后的译码器的输出作为图像处理器的输出。如图3中，提供了一种仅包含一个编码器和一个译码器的图像处理器的结构框图。

具体的，编码器和译码器的数量，本领域技术人员能够根据实际需求进行确定。

请参考图4所示，在本申请的另一方面，提供一种基于稀疏混合专家网络预训练的多模态遥感图像处理装置，该装置可设置于任一具有数据处理能力的电子设备上，如电脑、笔记本或服务器等内。

基于稀疏混合专家网络预训练的多模态遥感图像处理装置，包括：

第一处理模块，用于将待处理图像集输入通用编码单元，以获取通用编码单元输出的中间图像集。

待处理图像集中包括若干待处理图像，若干待处理图像中至少包括两种模态类型的图像；中间图像集包括若干中间图像组，每一中间图像组中均包括目标数量的中间图像，中间图像为经通用编码单元处理后的待处理图像；同一中间图像组中的每一中间图像对应同一模态类型，任意两个中间图像组之间对应的模态类型不同。

中间图像集包括若干中间图像组，每一中间图像组中均包括目标数量的中间图像，中间图像为经通用编码单元处理后的待处理图像；同一中间图像组中的每一中间图像对应同一模态类型，任意两个中间图像组之间对应的模态类型不同。

第二处理模块，用于将中间图像集输入专用编码单元，以获取专用编码单元输出的处理后图像集。

第三处理模块，用于将处理后图像集输入译码单元，以获取译码单元输出的处理结果。处理结果可以为待处理图像中具有预设物品的概率、待处理图像对应的三维模型或待处理图像对应的修复后图像等。

本实施例中，第一处理模块、第二处理模块和第三处理模块依次执行。

本实施例提供的基于稀疏混合专家网络预训练的多模态遥感图像处理装置，第一处理单元、第二处理单元和第三处理单元的运行，可以是对训练后的图像处理器进行实际使用过程中的运行，也可以是对图像处理器进行预训练过程中通用编码单元、专用编码单元和译码单元运行的运行。

具体的，本实施例中，上述第一处理单元、第二处理单元和第三处理单元的运行可以为在对图像处理器进行针对遥感图像处理的预训练过程的处理步骤，相应的，图像处理器对应的训预练任务为像素修复。

本实施例提供的基于稀疏混合专家网络预训练的多模态遥感图像处理装置，在获取到包含多种模态类型的待处理图像的待处理图像集后，会通过通用编码单元对待处理图像集中每一待处理图像进行处理，并将输出的中间图像组成中间图像集。

每一编码模块组中的编码模块数量至少根据以下之一确定：待处理图像的数量、若干待处理图像对应的模态类型的数量、专用编码单元处理过程中产生和处理的参数的数量。

具体的，待处理图像集可以设置为符合以下条件：

具体的，多模态联合编码处理包括：

确定每一局部特征对应的特征损失值。

使用替换局部特征对目标局部特征进行替换。

请参考图5所示，在本申请的一种示例性实施例中，基于稀疏混合专家网络预训练的多模态遥感图像处理装置还包括：

获取模块，用于获取每一目标地理区域对应的原始图像组。原始图像组可以为多个，不同原始图像组对应的地理区域存在差异，每一原始图像组中包括同一目标地理区域的对应的至少两个原始图像，且每一原始图像组中原始图像的数量相同，同一原始图像组中若干原始图像对应的模态类型相互不同。本实施例中，原始图像为遥感图像。

具体的，获取模块、分割模块和抽取模块依次执行，且均在第一处理模块之前执行。

进一步的，本实施例中，选取规则为：

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

根据本申请的这种实施方式的电子设备。电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：上述至少一个处理器、上述至少一个储存器、连接不同系统组件(包括储存器和处理器)的总线。

其中，储存器存储有程序代码，程序代码可以被处理器执行，使得处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

储存器可以包括易失性储存器形式的可读介质，例如随机存取储存器(RAM)和/或高速缓存储存器，还可以进一步包括只读储存器(ROM)。

储存器还可以包括具有一组(至少一个)程序模块的程序/实用工具，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线可以为表示几类总线结构中的一种或多种，包括储存器总线或者储存器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器通过总线与电子设备的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于稀疏混合专家网络预训练的多模态遥感图像处理方法，其特征在于，包括：

将待处理图像集输入通用编码单元，以获取所述通用编码单元输出的中间图像集；所述待处理图像集中包括若干待处理图像，若干待处理图像中至少包括两种模态类型的图像；所述中间图像集包括若干中间图像组，每一中间图像组中均包括目标数量的中间图像，所述中间图像为经通用编码单元处理后的待处理图像；同一中间图像组中的每一中间图像对应同一模态类型，任意两个中间图像组之间对应的模态类型不同；

将所述中间图像集输入专用编码单元，以获取所述专用编码单元输出的处理后图像集；所述专用编码单元包括若干编码模块组，每一所述编码模块组均包括若干编码模块；每一所述编码模块组均对应一个模态类型，编码模块用于对其所在编码模块组对应的模态类型的中间图像进行单模态编码处理；当所述专用编码单元接收到所述中间图像集后，将每一中间图像组分别输入与其对应的模态类型相同的编码模块组中每一编码模块内；

将所述处理后图像集输入译码单元，以获取所述译码单元输出的处理结果。

2.根据权利要求1所述的基于稀疏混合专家网络预训练的多模态遥感图像处理方法，其特征在于，所述编码模块组的数量与所述中间图像组的数量相同，且若干所述编码模块组和若干所述中间图像组均按照第一顺序排列。

3.根据权利要求1所述的基于稀疏混合专家网络预训练的多模态遥感图像处理方法，其特征在于，每一所述编码模块组中编码模块的数量均相同。

4.根据权利要求1所述的基于稀疏混合专家网络预训练的多模态遥感图像处理方法，其特征在于，每一所述中间图像组中的中间图像均按第二顺序排列，不同中间图像组内排序相同的中间图像均对应同一地理区域。

5.根据权利要求1-4任一项所述的基于稀疏混合专家网络预训练的多模态遥感图像处理方法，其特征在于，所述待处理图像集中包括若干待处理图像组，每一待处理图像组中均包括目标数量的待处理图像；

每一所述待处理图像组中的待处理图像均按第二顺序排列，不同待处理图像组内排序相同的待处理图像均对应同一地理区域；

6.根据权利要求5所述的基于稀疏混合专家网络预训练的多模态遥感图像处理方法，其特征在于，当所述通用编码单元接收到待处理图像后，对每一待处理图像组中排序相同的待处理图像进行多模态联合编码处理。

7.根据权利要求5所述的基于稀疏混合专家网络预训练的多模态遥感图像处理方法，其特征在于，在所述将待处理图像集输入通用编码单元之前，所述方法还包括：

获取每一目标地理区域对应的原始图像组；每一原始图像组中包括同一目标地理区域的对应的至少两个原始图像，且每一原始图像组中原始图像的数量相同，同一原始图像组中若干原始图像对应的模态类型相互不同；

使用同一拆分规则分别对每一原始图像进行图像分割，得到若干候选待处理图像；

使用预设数据选取规则对若干候选待处理图像进行数据选取，得到所述待处理图像集。

8.一种基于稀疏混合专家网络预训练的多模态遥感图像处理装置，其特征在于，包括：

第一处理模块，用于将待处理图像集输入通用编码单元，以获取所述通用编码单元输出的中间图像集；所述待处理图像集中包括若干待处理图像，若干待处理图像中至少包括两种模态类型的图像；所述中间图像集包括若干中间图像组，每一中间图像组中均包括目标数量的中间图像，所述中间图像为经通用编码单元处理后的待处理图像；同一中间图像组中的每一中间图像对应同一模态类型，任意两个中间图像组之间对应的模态类型不同；

第二处理模块，用于将所述中间图像集输入专用编码单元，以获取所述专用编码单元输出的处理后图像集；所述专用编码单元包括若干编码模块组，每一所述编码模块组均包括若干编码模块；每一所述编码模块组均对应一个模态类型，编码模块用于对其所在编码模块组对应的模态类型的中间图像进行单模态编码处理；当所述专用编码单元接收到所述中间图像集后，将每一中间图像组分别输入与其对应的模态类型相同的编码模块组中每一编码模块内；

第三处理模块，用于将所述处理后图像集输入译码单元，以获取所述译码单元输出的处理结果。

9.根据权利要求8所述的基于稀疏混合专家网络预训练的多模态遥感图像处理装置，其特征在于，所述编码模块组的数量与所述中间图像组的数量相同，且若干所述编码模块组和若干所述中间图像组均按照第一顺序排列。

10.根据权利要求8所述的基于稀疏混合专家网络预训练的多模态遥感图像处理装置，其特征在于，每一所述编码模块组中编码模块的数量均相同。

11.根据权利要求8所述的基于稀疏混合专家网络预训练的多模态遥感图像处理装置，其特征在于，每一所述中间图像组中的中间图像均按第二顺序排列，不同中间图像组内排序相同的中间图像均对应同一地理区域。

12.根据权利要求8-11任一项所述的基于稀疏混合专家网络预训练的多模态遥感图像处理装置，其特征在于，所述待处理图像集中包括若干待处理图像组，每一待处理图像组中均包括目标数量的待处理图像；

13.根据权利要求12所述的基于稀疏混合专家网络预训练的多模态遥感图像处理装置，其特征在于，当所述通用编码单元接收到待处理图像后，对每一待处理图像组中排序相同的待处理图像进行多模态联合编码处理。

14.根据权利要求12所述的基于稀疏混合专家网络预训练的多模态遥感图像处理装置，其特征在于，所述多模态遥感图像处理装置还包括：

获取模块，用于获取每一目标地理区域对应的原始图像组；每一原始图像组中包括同一目标地理区域的对应的至少两个原始图像，且每一原始图像组中原始图像的数量相同，同一原始图像组中若干原始图像对应的模态类型相互不同；

分割模块，用于使用同一拆分规则分别对每一原始图像进行图像分割，得到若干候选待处理图像；

抽取模块，用于使用预设数据选取规则对若干候选待处理图像进行数据选取，得到所述待处理图像集。

15.一种电子设备，其特征在于，包括处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至7任一项所述方法的步骤。

16.一种非瞬时性计算机可读存储介质，其特征在于，所述非瞬时性计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至7任一项所述方法的步骤。