CN116486085A

CN116486085A - 遥感图像的场景描述方法

Info

Publication number: CN116486085A
Application number: CN202310474551.0A
Authority: CN
Inventors: 李梓桢; 金世超; 贺广均; 冯鹏铭; 符晗; 陈千千; 梁颖; 田路云
Original assignee: Beijing Institute of Satellite Information Engineering
Current assignee: Beijing Institute of Satellite Information Engineering
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-07-25
Anticipated expiration: 2043-04-27
Also published as: CN116486085B

Abstract

本发明涉及一种遥感图像的场景描述方法，包括：S100，根据遥感图像构建遥感知识词库；S200，根据Mask2Former网络对所述遥感图像进行全景分割，得到全景分割结果并生成语义分割结果；S300，引入语义扩充模块，根据所述全景分割结果和所述语义分割结果对所述遥感图像进行语义扩充；S400，以ResNet特征提取网络为基础，引入基于通道的注意力模块，提取所述遥感图像中不同通道的语义特征信息；S500，以LSTM场景描述网络为基础，引入知识融合模块，生成关于所述遥感图像的场景描述语句。本发明能更加准确地描述高分遥感图像所携带的丰富语义及空间信息，可应用于遥感图像智能解译、遥感图像大数据管理等领域，具有广阔的前景。

Description

遥感图像的场景描述方法

技术领域

本发明涉及遥感技术领域，具体涉及一种遥感图像的场景描述方法。

背景技术

高分遥感图像的场景描述是针对海量遥感图像进行智能化解译的重要手段，也是在大数据背景下对海量遥感图像数据进行数据清洗、信息蒸馏的重要依据。近年来，随着遥感技术的发展，遥感图像空间分辨率逐步提高，图像所能承载和表达的地物细节和结构更加丰富多样，现有的图像描述方法难以对高分遥感图像进行准确地场景描述。

近些年提出的全景分割概念，主要目的是划分出图像中的背景类和实例类，既能为每个像素进行分类，还能对关注的前景目标划分实例。对高分遥感图像进行全景分割可以提取到更加丰富的语义信息和空间信息，基于全景分割结果的图像描述能更加准确地对高分遥感图像进行场景描述。

发明内容

有鉴于此，为解决上述问题，本发明提出一种遥感图像的场景描述方法，通过针对高分遥感图像及其全景分割结果构建遥感场景知识词库方法、进行语义扩充、通道语义特征提取，从而实现利用全景分割网络并构建遥感知识词库，多层次地提取高分遥感图像中的图像特征和场景语义，生成更准确的场景描述语句。

本发明实施例的遥感图像的场景描述方法，包括：

S100，根据遥感图像构建遥感知识词库；

S200，根据Mask2Former网络对所述遥感图像进行全景分割，得到全景分割结果并生成语义分割结果；

S300，引入语义扩充模块，根据所述全景分割结果和所述语义分割结果对所述遥感图像进行语义扩充；

S400，以ResNet特征提取网络为基础，引入基于通道的注意力模块，提取所述遥感图像中不同通道的语义特征信息；

S500，以LSTM场景描述网络为基础，引入知识融合模块，生成关于所述遥感图像的场景描述语句。

优选地，所述S100包括：

S110，从所述遥感图像中提取地物目标语义词汇表以及关联关系词汇表；

S120，根据词汇语义关系，对所述地物目标语义词汇表和所述关联关系词汇表中的词汇分配词索引值，每个词汇的词索引值根据下式确定：

D＝|S_x-S_y|＝|S_y-S_x|

其中，S_x，S_y分别是两个词汇的词索引值，D是词索引值S_x，S_y之间的词索引距离；

S130，将所有词索引值及对应的词汇构成键值对的形式，形成所述遥感知识词库。

优选地，所述S200包括：

S210，将所述遥感图像作为Mask2Former网络的输入，对所述遥感图像中的背景类目标进行语义级分割和对前景类目标进行实例级分割，得到所述全景分割结果；

S220，将所述前景类目标中具有相同语义类别的实例对象进行合并，并保持所述背景类目标不变，从而将实例级分割转化为语义级分割，得到所述语义分割结果。

优选地，所述S300包括：

S310，将前景类实例对象集{x₁₁，x₁₂，x₁₃...x_1j，x₂₁，x₂₂…x_ij}和背景对象集(y₁，y₂，y₃...y_k}进行拼接得到全景分割对象集：

{x₁₁，x₁₂，x₁₃…x_1j，x₂₁，x₂₂…x_ij，y₁，y₂，y₃…y_n}

其中，x_ij表示所述前景类实例对象集的第i类的第j个实例，y_k表示所述背景对象集的第k类背景对象；

将所述全景分割对象集映射到灰度转换集：

{w₁，w₂，w₃...w_n}，n＝i×j+k

根据所述灰度转换集为每个对象w_n分配灰度值n，按照新分配的灰度值将所述全景分割结果转化为灰度图像；

S320，为语义类别集{c₁，c₂，c₃...c_m}中的每个类别c_m分配灰度值m，按照新分配的灰度值将所述语义分割结果转化为灰度图像；

S330，将所述全景分割结果的灰度图像与所述语义分割结果的灰度图像作为两个新的通道，对原始图像进行扩充，从c通道扩充为c+2通道的语义扩充图像。

优选地，所述S400包括：

S410，由ResNet特征提取网络对所述语义扩充图像提取特征得到特征图A∈R^C×H×W作为所述注意力模块的输入；

其中，C是特征图A的通道数，H×W是特征图A的大小；

S420，根据特征图A生成注意力矩阵X∈R^C×C，计算公式如下：

其中，x_ji表示第i个通道对第j个通道的作用；

S430，根据特征图A和注意力矩阵X生成特征图E作为所述注意力模块的输出，计算公式如下：

其中，β是可学习的尺度参数。

优选地，所述S500包括：

S510，对特征图E作一维变换，在高度和宽度上作均值处理，结果记为x_-1∈R^1×C；

S520，根据所述遥感知识词库中的词索引值计算词索引距离注意力计算公式如下：

其中，S_ti是第i个词索引值对第k个词索引值的作用，L是词索引总数，S_i是第i个词索引值；

S530，生成LSTM场景描述网络的输入向量{x_-1，x₀，x₁...，x_T}；其中，{x₀，x₁...，x_T}是所述遥感图像的场景描述语句，计算公式如下：

其中，W_e，W₀是可学习的参数矩阵。

本发明实施例的遥感图像的场景描述方法，通过构建遥感知识词库，利用全景分割结果、语义扩充模块，为高分遥感图像提取出多层次的图像特征和场景语义信息；通过引入基于通道的注意力模块，增强了特征提取网络的通道语义信息提取能力；通过引入知识融合模块，增强了场景描述网络生成准确描述语句的能力；相较于现有的场景描述方法，本发明实施例能更加准确地描述高分遥感图像所携带的丰富语义及空间信息，可应用于遥感图像智能解译、遥感图像大数据管理等领域。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的遥感图像的场景描述方法的流程示意图；

图2-图6是本发明实施例的遥感图像的场景描述方法的一些子流程的示意图；

图7为本发明实施例的遥感图像的场景描述方法的原理示意图；

图8为本发明实施例中遥感知识词库的构建示意图；

图9为本发明实施例的基于通道的遥感图像语义扩充模块的示意图；

图10为本发明实施例的基于通道的注意力模块的示意图；

图11为本发明实施例的知识融合模块的示意图。

具体实施方式

此说明书实施方式的描述应与相应的附图相结合，附图应作为完整的说明书的一部分。在附图中，实施例的形状或是厚度可扩大，并以简化或是方便标示。再者，附图中各结构的部分将以分别描述进行说明，值得注意的是，图中未示出或未通过文字进行说明的元件，为所属技术领域中的普通技术人员所知的形式。

此处实施例的描述，有关方向和方位的任何参考，均仅是为了便于描述，而不能理解为对本发明保护范围的任何限制。以下对于优选实施方式的说明会涉及到特征的组合，这些特征可能独立存在或者组合存在，本发明并不特别地限定于优选的实施方式。本发明的范围由权利要求书所界定。

如图1和图7所示，本发明实施例的遥感图像的场景描述方法，包括：

S100，根据遥感图像构建遥感知识词库。

如图2和图8所示，在本实施例中，S100具体包括：

S110，从所述遥感图像中提取地物目标语义词汇表以及关联关系词汇表，其中地物目标语义信息包括：建筑物(Building)、飞机(Plane)、航站楼(Terminal)、街道(Street)等；关联关系信息包括：邻近(Next)、停泊(Park)、滑行(Slide)等。

D＝|S_x-S_y|＝|S_y-S_x|

例如，有索引值S₁，S₂，S₃，S₄分别是词汇车辆(Car)、飞机(Plane)、滑行(Slide)、街道(Street)的索引值，根据词汇之间的语义关系，飞机(Plane)和滑行(Slide)索引距离小于车辆(Car)和滑行(Slide)索引值距离，因此有：

|S₁-S₃|＞|S₂-S₃|

同理车辆(Car)和街道(Street)索引距离小于飞机(Plane)和街道(Street)之间的索引距离，因此有：

|S₂-S₄|＞|S₁-S₄|

经过每个词汇与其他所有词汇的索引距离的大小对比，可以确定所有词汇的一个最终的词索引值。值得注意的是，相对比的词索引值S_x，S_y可以是分别来自地物目标语义词汇表和关联关系词汇表，亦可以是出自同一个表。

S200，根据Mask2Former网络对所述遥感图像进行全景分割，得到全景分割结果并生成语义分割结果。

如图3所示，在本实施例中，S200具体包括：

S210，将所述遥感图像作为Mask2Former网络的输入，对所述遥感图像中的背景类目标(如草地、道路等不可数类别)进行语义级分割和对前景类目标(如飞机、车辆等可数类别)进行实例级分割，得到所述全景分割结果；

S220，针对高分遥感图像全景分割结果，背景类的分割保持不变，将前景类中具有相同语义类别的实例对象进行合并，将实例级分割转换为语义级分割，生成高分遥感图像语义分割结果。

S300，引入语义扩充模块，根据所述全景分割结果和所述语义分割结果对所述遥感图像进行语义扩充。

如图4和图9所示，在本实施例中，S300具体包括：

S310，针对高分遥感图像全景分割结果，记原本的前景实例对象集{x₁₁，x₁₂，x₁₃…x_1j，x₂₁，x₂₂…x_ij}，其中x_ij表示第i类的第j个实例；记原本的背景对象集为{y₁，y₂，y₃...y_k}，其中y_k表示第k类背景对象。对前景实例对象集和背景对象集进行拼接，拼接之后全景分割对象集为{x₁₁，x₁₂，x₁₃...x_1j，x₂₁，x₂₂…x_ij，y₁，y₂，y₃...y_n}，将全景分割对象集映射到灰度转换集{_w1，w₂，w₃...w_n}，其中：

n＝i×j+k

根据灰度转换集，为转换集中的每个对象w_n分配灰度值n，按照新分配的灰度值将高分遥感图像全景分割结果转化为灰度图像。

S320，针对高分遥感图像语义分割结果，记语义类别集为(c₁，c₂，c₃...c_m}，为语义类别集中每个类别c_m分配灰度值m，按照新分配的灰度值将高分遥感图像语义分割结果转化为灰度图像。

S400，以ResNet特征提取网络为基础，引入基于通道的注意力模块，提取所述遥感图像中不同通道的语义特征信息。

如图5和图10所示，在本实施例中，S400具体包括：

其中，C是特征图A的通道数，H×W是特征图A的大小；

S420，根据特征图A生成注意力矩阵X∈R^C×C，计算公式如下：

其中，x_ji表示第i个通道对第j个通道的作用；

其中，β是可学习的尺度参数。

如图6和图11所示，在本实施例中，S500具体包括：

其中，W_e，W₀是可学习的参数矩阵。

综上，本发明实施例的遥感图像的场景描述方法，通过构建遥感知识词库，利用全景分割结果、语义扩充模块，为高分遥感图像提取出多层次的图像特征和场景语义信息；通过引入基于通道的注意力模块，增强了特征提取网络的通道语义信息提取能力；通过引入知识融合模块，增强了场景描述网络生成准确描述语句的能力；相较于现有的场景描述方法，本发明实施例能更加准确地描述高分遥感图像所携带的丰富语义及空间信息，可应用于遥感图像智能解译、遥感图像大数据管理等领域。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种遥感图像的场景描述方法，其特征在于，包括：

S100，根据遥感图像构建遥感知识词库；

2.根据权利要求1所述的遥感图像的场景描述方法，其特征在于，所述S100包括：

D＝|S_x-S_y|＝|S_y-S_x|

3.根据权利要求2所述的遥感图像的场景描述方法，其特征在于，所述S200包括：

4.根据权利要求3所述的遥感图像的场景描述方法，其特征在于，所述S300包括：

S310，将前景类实例对象集{x₁₁，x₁₂，x₁₃...x_1j，x₂₁，x₂₂...x_ij}和背景对象集{y₁，y₂，y₃...y_k}进行拼接得到全景分割对象集：

将所述全景分割对象集映射到灰度转换集：

{w₁，w₂，w₃...w_n}，n＝i×j+k

5.根据权利要求4所述的遥感图像的场景描述方法，其特征在于，所述S400包括：

其中，C是特征图A的通道数，H×W是特征图A的大小；

S420，根据特征图A生成注意力矩阵X∈R^C×C，计算公式如下：

其中，x_ji表示第i个通道对第j个通道的作用；

其中，β是可学习的尺度参数。

6.根据权利要求5所述的遥感图像的场景描述方法，其特征在于，所述S500包括：

其中，S_ti表示第i个词索引值对第t个词索引值的作用，L是词索引总数，S_i，S_k，S_t分别表示第i，k，t个词索引值，是第t个词索引值的距离注意力；

S530，生成LSTM场景描述网络的输入向量{x_-1，x₀，x₁...，x_L-1}；其中，{x₀，x₁...，x_L-1}是所述遥感图像的场景描述语句，计算公式如下：

其中，W_e，W₀是可学习的参数矩阵，L是词索引总数。