CN113610025B

CN113610025B - 一种多模型综合的遥感影像场景描述方法

Info

Publication number: CN113610025B
Application number: CN202110930199.8A
Authority: CN
Inventors: 路志英; 王港
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2022-08-09
Anticipated expiration: 2041-08-13
Also published as: CN113610025A

Abstract

一种多模型综合的遥感影像场景描述方法：构建由目标检测样本集、地物分割样本集、目标识别样本集和语义描述样本集构成的遥感影像场景描述样本库；对深度学习目标检测模型、深度学习地物分类模型和深度学习目标分类模型进行训练，并进行目标检测识别和地物分类，生成结构化信息；将循环神经网络结构构成自然语言描述模型中的自然语言描述部分，将卷积神经网络构成自然语言描述模型中的图像处理部分，利用语义描述样本集对自然语言描述模型进行训练，获得遥感影像的场景语义描述；将结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到遥感影像的场景语义描述中，获得具备定性和定量描述能力的场景描述结果。本发明具有好的实际应用和描述准确性。

Description

一种多模型综合的遥感影像场景描述方法

技术领域

本发明涉及一种遥感影像场景描述技术。特别是涉及一种多模型综合的遥感影像场景描述方法。

背景技术

在遥感影像目标检测领域中可以进行场景理解的方法主要有如下几种，但它们在准确性和全面性上均存在某些缺陷：

(1)基于中层特征的场景分类方法，如词袋模型、空间金字塔匹配模型、局部约束线性编码模型、主题模型、特征编码模型等方法。基于中层特征的场景分类方法旨在通过人工提取底层特征构建特征字典，并利用特征编码方法实现场景语义描述。但是该类方法没有跨越从图像到自然语言的鸿沟，且缺乏理论框架，难以实现特征自动提取、任务端到端完成。

(2)基于深度卷积神经网络的方法，在充分学习目标局部特征的基础上，一定程度上考虑了全局特征，且可以形成简单词语的语义描述。但是该方法无法直接形成一句话的自然语言描述，且对于全局的数量、位置等信息无法感知获得。

(3)基于深度卷积神经网络结合循环神经网络的方法，深度卷积神经网络用于感知遥感区域场景目标，循环神经网络用于根据目标识别结果形成自然语言描述。该类方法可以形成对遥感影像场景内的自然语言描述，但是无法准确获得地物环境、目标数量和位置关系等信息，对于某些使用场景很难直接使用。

发明内容

本发明所要解决的技术问题是，提供一种具有描述准确、性能稳定、场景要素覆盖高等特点的多模型综合的遥感影像场景描述方法。

本发明所采用的技术方案是：一种多模型综合的遥感影像场景描述方法，包括以下步骤：

1)构建遥感影像场景描述样本库，包括目标检测样本集、地物分割样本集、目标识别样本集和语义描述样本集；

2)分别对深度学习目标检测模型、深度学习地物分类模型和深度学习目标分类模型进行训练，并利用训练好的模型进行目标检测识别和地物分类，生成结构化信息；

3)建立基于遥感场景影像和标注的自然语言描述模型，使用循环神经网络结构构成自然语言描述模型中的自然语言描述部分，使用卷积神经网络构成自然语言描述模型中的图像处理部分，利用语义描述样本集对自然语言描述模型进行训练，并利用训练好的自然语言描述模型获得遥感影像的场景语义描述；

4)将步骤2)中获得的结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到步骤3)中获得的遥感影像的场景语义描述中，从而获得具备定性和定量描述能力的场景描述结果。

本发明的一种多模型综合的遥感影像场景描述方法，克服了现有方法中场景描述简单、无法形成完整自然语言描述，场景描述缺乏定量信息和环境信息等问题，改善了遥感影像场景描述的性能；具有较好的实际应用和描述准确全面的性能，能够满足遥感影像智能解译、场景理解、场景描述的应用要求。本发明可用于遥感影像智能解译、遥感影像场景理解、对地侦察、精确打击、区域执法等应用场景。

附图说明

图1是本发明一种多模型综合的遥感影像场景描述方法的流程图；

图2是本发明中样本集构建示意图；

图3是本发明中自然语言描述模型示意图；

图4是本发明中定性描述和定性描述融合过程示意图。

具体实施方式

下面结合实施例和附图对本发明的一种多模型综合的遥感影像场景描述方法做出详细说明。

如图1所示，本发明的一种多模型综合的遥感影像场景描述方法，包括以下步骤：

1)构建遥感影像场景描述样本库，包括目标检测样本集、地物分割样本集、目标识别样本集和语义描述样本集，具体如图2所示；其中所述的：

(1.1)目标检测样本集，包括遥感影像、遥感影像的分辨率信息和尺寸信息、遥感影像中目标的位置信息和目标的类别信息；

(1.2)地物分割样本集，包括遥感影像、遥感影像的分辨率信息和尺寸信息、遥感影像中地物像素级位置信息和地物类别信息；

(1.3)目标识别样本集，包括目标影像切片、目标影像切片的分辨率信息和尺寸信息、目标影像切片中目标外观属性信息和详细类别信息；

(1.4)语义描述样本集，包括遥感影像、遥感影像的分辨率信息和尺寸信息、遥感影像中场景语义描述信息。

2)分别对深度学习目标检测模型、深度学习地物分类模型和深度学习目标分类模型进行训练，并利用训练好的模型进行目标检测识别和地物分类，生成结构化信息；这里所选用的深度学习目标检测模型两阶段目标检测模型或单阶段目标检测模型；该步骤包括：

(2.1)采用目标检测样本集对深度学习目标检测模型进行训练，采用地物分割样本集对深度学习地物分类模型进行训练，采用目标识别样本集对深度学习目标分类模型进行训练；

(2.2)将待测的遥感影像输入训练好的深度学习目标检测模型进行目标检测，获得目标位置、目标类别和目标切片；

(2.3)将待测的遥感影像输入训练好的深度学习地物分类模型进行地物分割分类，获得地物像素级位置和地物类别；

(2.3)将所述的目标切片输入训练好的深度学习目标分类模型，获得目标的详细分类信息；

(2.4)将目标位置、目标类别、地物像素级位置、地物类别和目标的详细分类信息共同构成结构化信息，并汇总待测遥感影像中不同类别目标的数量信息。

3)建立基于遥感场景影像和标注的自然语言描述模型，使用循环神经网络结构构成自然语言描述模型中的自然语言描述部分，使用卷积神经网络构成自然语言描述模型中的图像处理部分，利用语义描述样本集对自然语言描述模型进行训练，并利用训练好的自然语言描述模型获得遥感影像的场景语义描述；具体如图3所示，包括：

(3.1)在循环神经网络结构中增加LSTM模块和注意力模块；

(3.2)利用语义描述样本集训练自然语言描述模型，其中，模型训练损失函数包括LSTM模块语义描述误差和注意力模块误差两部分，利用模型训练损失函数对自然语言描述模型进行反馈调节；

(303)将待测遥感影像输入训练好的自然语言描述模型，进行场景描述语言生成，获得遥感影像的场景语义描述。

4)将步骤2)中获得的结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到步骤3)中获得的遥感影像的场景语义描述中，从而获得具备定性和定量描述能力的场景描述结果；包括：

4)将步骤2)中获得的结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到步骤3)中获得的遥感影像的场景语义描述中，从而获得具备定性和定量描述能力的场景描述结果。具体如图4所示，包括：

(4.1)将步骤3)获得的遥感影像的场景语义描述进行关键词提取，提取的关键词包括目标的名称和目标的类别；

(4.2)将所述的目标的名称和目标的类别结合语义属性关联信息替换成步骤2)中所述目标的详细分类信息；

(403)进行自然语言关键词关联，利用步骤2)获得的待测遥感影像中不同类别目标的数量信息融入到步骤3)获得的遥感影像的场景语义描述中去，获得具备定性和定量描述能力的场景描述结果。

Claims

1.一种多模型综合的遥感影像场景描述方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多模型综合的遥感影像场景描述方法，其特征在于，步骤1)中所述的：

3.根据权利要求1所述的一种多模型综合的遥感影像场景描述方法，其特征在于，步骤2)中所述的深度学习目标检测模型两阶段目标检测模型或单阶段目标检测模型。

4.根据权利要求1所述的一种多模型综合的遥感影像场景描述方法，其特征在于，步骤2)包括：

5.根据权利要求1所述的一种多模型综合的遥感影像场景描述方法，其特征在于，步骤3)包括：

(3.1)在循环神经网络结构中增加LSTM模块和注意力模块；

6.根据权利要求1所述的一种多模型综合的遥感影像场景描述方法，其特征在于，所述步骤4)包括：

4)将步骤2)中获得的结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到步骤3)中获得的遥感影像的场景语义描述中，从而获得具备定性和定量描述能力的场景描述结果；