CN113610025B - 一种多模型综合的遥感影像场景描述方法 - Google Patents
一种多模型综合的遥感影像场景描述方法 Download PDFInfo
- Publication number
- CN113610025B CN113610025B CN202110930199.8A CN202110930199A CN113610025B CN 113610025 B CN113610025 B CN 113610025B CN 202110930199 A CN202110930199 A CN 202110930199A CN 113610025 B CN113610025 B CN 113610025B
- Authority
- CN
- China
- Prior art keywords
- remote sensing
- target
- model
- sensing image
- description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种多模型综合的遥感影像场景描述方法:构建由目标检测样本集、地物分割样本集、目标识别样本集和语义描述样本集构成的遥感影像场景描述样本库;对深度学习目标检测模型、深度学习地物分类模型和深度学习目标分类模型进行训练,并进行目标检测识别和地物分类,生成结构化信息;将循环神经网络结构构成自然语言描述模型中的自然语言描述部分,将卷积神经网络构成自然语言描述模型中的图像处理部分,利用语义描述样本集对自然语言描述模型进行训练,获得遥感影像的场景语义描述;将结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到遥感影像的场景语义描述中,获得具备定性和定量描述能力的场景描述结果。本发明具有好的实际应用和描述准确性。
Description
技术领域
本发明涉及一种遥感影像场景描述技术。特别是涉及一种多模型综合的遥感影像场景描述方法。
背景技术
在遥感影像目标检测领域中可以进行场景理解的方法主要有如下几种,但它们在准确性和全面性上均存在某些缺陷:
(1)基于中层特征的场景分类方法,如词袋模型、空间金字塔匹配模型、局部约束线性编码模型、主题模型、特征编码模型等方法。基于中层特征的场景分类方法旨在通过人工提取底层特征构建特征字典,并利用特征编码方法实现场景语义描述。但是该类方法没有跨越从图像到自然语言的鸿沟,且缺乏理论框架,难以实现特征自动提取、任务端到端完成。
(2)基于深度卷积神经网络的方法,在充分学习目标局部特征的基础上,一定程度上考虑了全局特征,且可以形成简单词语的语义描述。但是该方法无法直接形成一句话的自然语言描述,且对于全局的数量、位置等信息无法感知获得。
(3)基于深度卷积神经网络结合循环神经网络的方法,深度卷积神经网络用于感知遥感区域场景目标,循环神经网络用于根据目标识别结果形成自然语言描述。该类方法可以形成对遥感影像场景内的自然语言描述,但是无法准确获得地物环境、目标数量和位置关系等信息,对于某些使用场景很难直接使用。
发明内容
本发明所要解决的技术问题是,提供一种具有描述准确、性能稳定、场景要素覆盖高等特点的多模型综合的遥感影像场景描述方法。
本发明所采用的技术方案是:一种多模型综合的遥感影像场景描述方法,包括以下步骤:
1)构建遥感影像场景描述样本库,包括目标检测样本集、地物分割样本集、目标识别样本集和语义描述样本集;
2)分别对深度学习目标检测模型、深度学习地物分类模型和深度学习目标分类模型进行训练,并利用训练好的模型进行目标检测识别和地物分类,生成结构化信息;
3)建立基于遥感场景影像和标注的自然语言描述模型,使用循环神经网络结构构成自然语言描述模型中的自然语言描述部分,使用卷积神经网络构成自然语言描述模型中的图像处理部分,利用语义描述样本集对自然语言描述模型进行训练,并利用训练好的自然语言描述模型获得遥感影像的场景语义描述;
4)将步骤2)中获得的结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到步骤3)中获得的遥感影像的场景语义描述中,从而获得具备定性和定量描述能力的场景描述结果。
本发明的一种多模型综合的遥感影像场景描述方法,克服了现有方法中场景描述简单、无法形成完整自然语言描述,场景描述缺乏定量信息和环境信息等问题,改善了遥感影像场景描述的性能;具有较好的实际应用和描述准确全面的性能,能够满足遥感影像智能解译、场景理解、场景描述的应用要求。本发明可用于遥感影像智能解译、遥感影像场景理解、对地侦察、精确打击、区域执法等应用场景。
附图说明
图1是本发明一种多模型综合的遥感影像场景描述方法的流程图;
图2是本发明中样本集构建示意图;
图3是本发明中自然语言描述模型示意图;
图4是本发明中定性描述和定性描述融合过程示意图。
具体实施方式
下面结合实施例和附图对本发明的一种多模型综合的遥感影像场景描述方法做出详细说明。
如图1所示,本发明的一种多模型综合的遥感影像场景描述方法,包括以下步骤:
1)构建遥感影像场景描述样本库,包括目标检测样本集、地物分割样本集、目标识别样本集和语义描述样本集,具体如图2所示;其中所述的:
(1.1)目标检测样本集,包括遥感影像、遥感影像的分辨率信息和尺寸信息、遥感影像中目标的位置信息和目标的类别信息;
(1.2)地物分割样本集,包括遥感影像、遥感影像的分辨率信息和尺寸信息、遥感影像中地物像素级位置信息和地物类别信息;
(1.3)目标识别样本集,包括目标影像切片、目标影像切片的分辨率信息和尺寸信息、目标影像切片中目标外观属性信息和详细类别信息;
(1.4)语义描述样本集,包括遥感影像、遥感影像的分辨率信息和尺寸信息、遥感影像中场景语义描述信息。
2)分别对深度学习目标检测模型、深度学习地物分类模型和深度学习目标分类模型进行训练,并利用训练好的模型进行目标检测识别和地物分类,生成结构化信息;这里所选用的深度学习目标检测模型两阶段目标检测模型或单阶段目标检测模型;该步骤包括:
(2.1)采用目标检测样本集对深度学习目标检测模型进行训练,采用地物分割样本集对深度学习地物分类模型进行训练,采用目标识别样本集对深度学习目标分类模型进行训练;
(2.2)将待测的遥感影像输入训练好的深度学习目标检测模型进行目标检测,获得目标位置、目标类别和目标切片;
(2.3)将待测的遥感影像输入训练好的深度学习地物分类模型进行地物分割分类,获得地物像素级位置和地物类别;
(2.3)将所述的目标切片输入训练好的深度学习目标分类模型,获得目标的详细分类信息;
(2.4)将目标位置、目标类别、地物像素级位置、地物类别和目标的详细分类信息共同构成结构化信息,并汇总待测遥感影像中不同类别目标的数量信息。
3)建立基于遥感场景影像和标注的自然语言描述模型,使用循环神经网络结构构成自然语言描述模型中的自然语言描述部分,使用卷积神经网络构成自然语言描述模型中的图像处理部分,利用语义描述样本集对自然语言描述模型进行训练,并利用训练好的自然语言描述模型获得遥感影像的场景语义描述;具体如图3所示,包括:
(3.1)在循环神经网络结构中增加LSTM模块和注意力模块;
(3.2)利用语义描述样本集训练自然语言描述模型,其中,模型训练损失函数包括LSTM模块语义描述误差和注意力模块误差两部分,利用模型训练损失函数对自然语言描述模型进行反馈调节;
(303)将待测遥感影像输入训练好的自然语言描述模型,进行场景描述语言生成,获得遥感影像的场景语义描述。
4)将步骤2)中获得的结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到步骤3)中获得的遥感影像的场景语义描述中,从而获得具备定性和定量描述能力的场景描述结果;包括:
4)将步骤2)中获得的结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到步骤3)中获得的遥感影像的场景语义描述中,从而获得具备定性和定量描述能力的场景描述结果。具体如图4所示,包括:
(4.1)将步骤3)获得的遥感影像的场景语义描述进行关键词提取,提取的关键词包括目标的名称和目标的类别;
(4.2)将所述的目标的名称和目标的类别结合语义属性关联信息替换成步骤2)中所述目标的详细分类信息;
(403)进行自然语言关键词关联,利用步骤2)获得的待测遥感影像中不同类别目标的数量信息融入到步骤3)获得的遥感影像的场景语义描述中去,获得具备定性和定量描述能力的场景描述结果。
Claims (6)
1.一种多模型综合的遥感影像场景描述方法,其特征在于,包括以下步骤:
1)构建遥感影像场景描述样本库,包括目标检测样本集、地物分割样本集、目标识别样本集和语义描述样本集;
2)分别对深度学习目标检测模型、深度学习地物分类模型和深度学习目标分类模型进行训练,并利用训练好的模型进行目标检测识别和地物分类,生成结构化信息;
3)建立基于遥感场景影像和标注的自然语言描述模型,使用循环神经网络结构构成自然语言描述模型中的自然语言描述部分,使用卷积神经网络构成自然语言描述模型中的图像处理部分,利用语义描述样本集对自然语言描述模型进行训练,并利用训练好的自然语言描述模型获得遥感影像的场景语义描述;
4)将步骤2)中获得的结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到步骤3)中获得的遥感影像的场景语义描述中,从而获得具备定性和定量描述能力的场景描述结果。
2.根据权利要求1所述的一种多模型综合的遥感影像场景描述方法,其特征在于,步骤1)中所述的:
(1.1)目标检测样本集,包括遥感影像、遥感影像的分辨率信息和尺寸信息、遥感影像中目标的位置信息和目标的类别信息;
(1.2)地物分割样本集,包括遥感影像、遥感影像的分辨率信息和尺寸信息、遥感影像中地物像素级位置信息和地物类别信息;
(1.3)目标识别样本集,包括目标影像切片、目标影像切片的分辨率信息和尺寸信息、目标影像切片中目标外观属性信息和详细类别信息;
(1.4)语义描述样本集,包括遥感影像、遥感影像的分辨率信息和尺寸信息、遥感影像中场景语义描述信息。
3.根据权利要求1所述的一种多模型综合的遥感影像场景描述方法,其特征在于,步骤2)中所述的深度学习目标检测模型两阶段目标检测模型或单阶段目标检测模型。
4.根据权利要求1所述的一种多模型综合的遥感影像场景描述方法,其特征在于,步骤2)包括:
(2.1)采用目标检测样本集对深度学习目标检测模型进行训练,采用地物分割样本集对深度学习地物分类模型进行训练,采用目标识别样本集对深度学习目标分类模型进行训练;
(2.2)将待测的遥感影像输入训练好的深度学习目标检测模型进行目标检测,获得目标位置、目标类别和目标切片;
(2.3)将待测的遥感影像输入训练好的深度学习地物分类模型进行地物分割分类,获得地物像素级位置和地物类别;
(2.3)将所述的目标切片输入训练好的深度学习目标分类模型,获得目标的详细分类信息;
(2.4)将目标位置、目标类别、地物像素级位置、地物类别和目标的详细分类信息共同构成结构化信息,并汇总待测遥感影像中不同类别目标的数量信息。
5.根据权利要求1所述的一种多模型综合的遥感影像场景描述方法,其特征在于,步骤3)包括:
(3.1)在循环神经网络结构中增加LSTM模块和注意力模块;
(3.2)利用语义描述样本集训练自然语言描述模型,其中,模型训练损失函数包括LSTM模块语义描述误差和注意力模块误差两部分,利用模型训练损失函数对自然语言描述模型进行反馈调节;
(303)将待测遥感影像输入训练好的自然语言描述模型,进行场景描述语言生成,获得遥感影像的场景语义描述。
6.根据权利要求1所述的一种多模型综合的遥感影像场景描述方法,其特征在于,所述步骤4)包括:
4)将步骤2)中获得的结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到步骤3)中获得的遥感影像的场景语义描述中,从而获得具备定性和定量描述能力的场景描述结果;
(4.1)将步骤3)获得的遥感影像的场景语义描述进行关键词提取,提取的关键词包括目标的名称和目标的类别;
(4.2)将所述的目标的名称和目标的类别结合语义属性关联信息替换成步骤2)中所述目标的详细分类信息;
(403)进行自然语言关键词关联,利用步骤2)获得的待测遥感影像中不同类别目标的数量信息融入到步骤3)获得的遥感影像的场景语义描述中去,获得具备定性和定量描述能力的场景描述结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110930199.8A CN113610025B (zh) | 2021-08-13 | 2021-08-13 | 一种多模型综合的遥感影像场景描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110930199.8A CN113610025B (zh) | 2021-08-13 | 2021-08-13 | 一种多模型综合的遥感影像场景描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113610025A CN113610025A (zh) | 2021-11-05 |
CN113610025B true CN113610025B (zh) | 2022-08-09 |
Family
ID=78308496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110930199.8A Active CN113610025B (zh) | 2021-08-13 | 2021-08-13 | 一种多模型综合的遥感影像场景描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113610025B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457396B (zh) * | 2022-09-26 | 2023-06-23 | 河北省科学院地理科学研究所 | 一种基于遥感影像的地表目标地物检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171283A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于结构化语义嵌入的图像内容自动描述方法 |
CN109740471A (zh) * | 2018-12-24 | 2019-05-10 | 中国科学院西安光学精密机械研究所 | 基于联合潜在语义嵌入的遥感图像描述方法 |
CN110502655A (zh) * | 2019-07-31 | 2019-11-26 | 武汉大学 | 一种嵌入场景文字信息的图像自然描述语句生成方法 |
CN111612103A (zh) * | 2020-06-23 | 2020-09-01 | 中国人民解放军国防科技大学 | 结合抽象语义表示的图像描述生成方法、系统及介质 |
CN111860235A (zh) * | 2020-07-06 | 2020-10-30 | 中国科学院空天信息创新研究院 | 高低层特征融合的注意力遥感图像描述的生成方法及系统 |
-
2021
- 2021-08-13 CN CN202110930199.8A patent/CN113610025B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171283A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于结构化语义嵌入的图像内容自动描述方法 |
CN109740471A (zh) * | 2018-12-24 | 2019-05-10 | 中国科学院西安光学精密机械研究所 | 基于联合潜在语义嵌入的遥感图像描述方法 |
CN110502655A (zh) * | 2019-07-31 | 2019-11-26 | 武汉大学 | 一种嵌入场景文字信息的图像自然描述语句生成方法 |
CN111612103A (zh) * | 2020-06-23 | 2020-09-01 | 中国人民解放军国防科技大学 | 结合抽象语义表示的图像描述生成方法、系统及介质 |
CN111860235A (zh) * | 2020-07-06 | 2020-10-30 | 中国科学院空天信息创新研究院 | 高低层特征融合的注意力遥感图像描述的生成方法及系统 |
Non-Patent Citations (2)
Title |
---|
Phrase-based image caption generator with hierarchical LSTM network;Ying Hua Tan等;《Neurocomputing》;20181228;全文 * |
图像描述生成研究进展;李志欣等;《计算机研究与发展》;20210128;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113610025A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635171B (zh) | 一种新闻节目智能标签的融合推理系统和方法 | |
Chen et al. | Scanrefer: 3d object localization in rgb-d scans using natural language | |
CN110597735B (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
CN108334830B (zh) | 一种基于目标语义和深度外观特征融合的场景识别方法 | |
CN113378815B (zh) | 一种场景文本定位识别的系统及其训练和识别的方法 | |
CN108628828A (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
Wang et al. | Multiscale multiinteraction network for remote sensing image captioning | |
CN110991149A (zh) | 一种多模态实体链接方法和实体链接系统 | |
CN117079163A (zh) | 一种基于改进yolox-s的航拍图像小目标检测方法 | |
CN113610025B (zh) | 一种多模型综合的遥感影像场景描述方法 | |
CN114548099A (zh) | 基于多任务框架的方面词和方面类别联合抽取和检测方法 | |
CN116958512A (zh) | 目标检测方法、装置、计算机可读介质及电子设备 | |
CN115512191A (zh) | 一种联合问答的图像自然语言描述方法 | |
Jishan et al. | Bangla language textual image description by hybrid neural network model | |
CN115690549A (zh) | 一种基于并联交互架构模型实现多维度特征融合的目标检测方法 | |
CN112528642B (zh) | 一种隐式篇章关系自动识别方法及系统 | |
CN110532449A (zh) | 一种业务文档的处理方法、装置、设备和存储介质 | |
CN118097694A (zh) | 图像标注数据生成、模型训练方法、装置、设备及介质 | |
Roy et al. | Diag2graph: Representing deep learning diagrams in research papers as knowledge graphs | |
Zhou et al. | Towards Vision-Language Geo-Foundation Model: A Survey | |
CN114511787A (zh) | 一种基于神经网络的遥感图像地物信息生成方法及其系统 | |
CN112560925A (zh) | 一种复杂场景目标检测数据集构建方法及系统 | |
Nithya et al. | A review on automatic image captioning techniques | |
Khekare et al. | Real time object detection with speech recognition using tensorflow lite | |
Li et al. | An Object Co-occurrence Assisted Hierarchical Model for Scene Understanding. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |