CN113610025B - 一种多模型综合的遥感影像场景描述方法 - Google Patents
一种多模型综合的遥感影像场景描述方法 Download PDFInfo
- Publication number
- CN113610025B CN113610025B CN202110930199.8A CN202110930199A CN113610025B CN 113610025 B CN113610025 B CN 113610025B CN 202110930199 A CN202110930199 A CN 202110930199A CN 113610025 B CN113610025 B CN 113610025B
- Authority
- CN
- China
- Prior art keywords
- remote sensing
- description
- target
- model
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000001514 detection method Methods 0.000 claims abstract description 27
- 238000013135 deep learning Methods 0.000 claims abstract description 24
- 238000013145 classification model Methods 0.000 claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000009469 supplementation Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种多模型综合的遥感影像场景描述方法:构建由目标检测样本集、地物分割样本集、目标识别样本集和语义描述样本集构成的遥感影像场景描述样本库;对深度学习目标检测模型、深度学习地物分类模型和深度学习目标分类模型进行训练,并进行目标检测识别和地物分类,生成结构化信息;将循环神经网络结构构成自然语言描述模型中的自然语言描述部分,将卷积神经网络构成自然语言描述模型中的图像处理部分,利用语义描述样本集对自然语言描述模型进行训练,获得遥感影像的场景语义描述;将结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到遥感影像的场景语义描述中,获得具备定性和定量描述能力的场景描述结果。本发明具有好的实际应用和描述准确性。
Description
技术领域
本发明涉及一种遥感影像场景描述技术。特别是涉及一种多模型综合的遥感影像场景描述方法。
背景技术
在遥感影像目标检测领域中可以进行场景理解的方法主要有如下几种,但它们在准确性和全面性上均存在某些缺陷:
(1)基于中层特征的场景分类方法,如词袋模型、空间金字塔匹配模型、局部约束线性编码模型、主题模型、特征编码模型等方法。基于中层特征的场景分类方法旨在通过人工提取底层特征构建特征字典,并利用特征编码方法实现场景语义描述。但是该类方法没有跨越从图像到自然语言的鸿沟,且缺乏理论框架,难以实现特征自动提取、任务端到端完成。
(2)基于深度卷积神经网络的方法,在充分学习目标局部特征的基础上,一定程度上考虑了全局特征,且可以形成简单词语的语义描述。但是该方法无法直接形成一句话的自然语言描述,且对于全局的数量、位置等信息无法感知获得。
(3)基于深度卷积神经网络结合循环神经网络的方法,深度卷积神经网络用于感知遥感区域场景目标,循环神经网络用于根据目标识别结果形成自然语言描述。该类方法可以形成对遥感影像场景内的自然语言描述,但是无法准确获得地物环境、目标数量和位置关系等信息,对于某些使用场景很难直接使用。
发明内容
本发明所要解决的技术问题是,提供一种具有描述准确、性能稳定、场景要素覆盖高等特点的多模型综合的遥感影像场景描述方法。
本发明所采用的技术方案是:一种多模型综合的遥感影像场景描述方法,包括以下步骤:
1)构建遥感影像场景描述样本库,包括目标检测样本集、地物分割样本集、目标识别样本集和语义描述样本集;
2)分别对深度学习目标检测模型、深度学习地物分类模型和深度学习目标分类模型进行训练,并利用训练好的模型进行目标检测识别和地物分类,生成结构化信息;
3)建立基于遥感场景影像和标注的自然语言描述模型,使用循环神经网络结构构成自然语言描述模型中的自然语言描述部分,使用卷积神经网络构成自然语言描述模型中的图像处理部分,利用语义描述样本集对自然语言描述模型进行训练,并利用训练好的自然语言描述模型获得遥感影像的场景语义描述;
4)将步骤2)中获得的结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到步骤3)中获得的遥感影像的场景语义描述中,从而获得具备定性和定量描述能力的场景描述结果。
本发明的一种多模型综合的遥感影像场景描述方法,克服了现有方法中场景描述简单、无法形成完整自然语言描述,场景描述缺乏定量信息和环境信息等问题,改善了遥感影像场景描述的性能;具有较好的实际应用和描述准确全面的性能,能够满足遥感影像智能解译、场景理解、场景描述的应用要求。本发明可用于遥感影像智能解译、遥感影像场景理解、对地侦察、精确打击、区域执法等应用场景。
附图说明
图1是本发明一种多模型综合的遥感影像场景描述方法的流程图;
图2是本发明中样本集构建示意图;
图3是本发明中自然语言描述模型示意图;
图4是本发明中定性描述和定性描述融合过程示意图。
具体实施方式
下面结合实施例和附图对本发明的一种多模型综合的遥感影像场景描述方法做出详细说明。
如图1所示,本发明的一种多模型综合的遥感影像场景描述方法,包括以下步骤:
1)构建遥感影像场景描述样本库,包括目标检测样本集、地物分割样本集、目标识别样本集和语义描述样本集,具体如图2所示;其中所述的:
(1.1)目标检测样本集,包括遥感影像、遥感影像的分辨率信息和尺寸信息、遥感影像中目标的位置信息和目标的类别信息;
(1.2)地物分割样本集,包括遥感影像、遥感影像的分辨率信息和尺寸信息、遥感影像中地物像素级位置信息和地物类别信息;
(1.3)目标识别样本集,包括目标影像切片、目标影像切片的分辨率信息和尺寸信息、目标影像切片中目标外观属性信息和详细类别信息;
(1.4)语义描述样本集,包括遥感影像、遥感影像的分辨率信息和尺寸信息、遥感影像中场景语义描述信息。
2)分别对深度学习目标检测模型、深度学习地物分类模型和深度学习目标分类模型进行训练,并利用训练好的模型进行目标检测识别和地物分类,生成结构化信息;这里所选用的深度学习目标检测模型两阶段目标检测模型或单阶段目标检测模型;该步骤包括:
(2.1)采用目标检测样本集对深度学习目标检测模型进行训练,采用地物分割样本集对深度学习地物分类模型进行训练,采用目标识别样本集对深度学习目标分类模型进行训练;
(2.2)将待测的遥感影像输入训练好的深度学习目标检测模型进行目标检测,获得目标位置、目标类别和目标切片;
(2.3)将待测的遥感影像输入训练好的深度学习地物分类模型进行地物分割分类,获得地物像素级位置和地物类别;
(2.3)将所述的目标切片输入训练好的深度学习目标分类模型,获得目标的详细分类信息;
(2.4)将目标位置、目标类别、地物像素级位置、地物类别和目标的详细分类信息共同构成结构化信息,并汇总待测遥感影像中不同类别目标的数量信息。
3)建立基于遥感场景影像和标注的自然语言描述模型,使用循环神经网络结构构成自然语言描述模型中的自然语言描述部分,使用卷积神经网络构成自然语言描述模型中的图像处理部分,利用语义描述样本集对自然语言描述模型进行训练,并利用训练好的自然语言描述模型获得遥感影像的场景语义描述;具体如图3所示,包括:
(3.1)在循环神经网络结构中增加LSTM模块和注意力模块;
(3.2)利用语义描述样本集训练自然语言描述模型,其中,模型训练损失函数包括LSTM模块语义描述误差和注意力模块误差两部分,利用模型训练损失函数对自然语言描述模型进行反馈调节;
(303)将待测遥感影像输入训练好的自然语言描述模型,进行场景描述语言生成,获得遥感影像的场景语义描述。
4)将步骤2)中获得的结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到步骤3)中获得的遥感影像的场景语义描述中,从而获得具备定性和定量描述能力的场景描述结果;包括:
4)将步骤2)中获得的结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到步骤3)中获得的遥感影像的场景语义描述中,从而获得具备定性和定量描述能力的场景描述结果。具体如图4所示,包括:
(4.1)将步骤3)获得的遥感影像的场景语义描述进行关键词提取,提取的关键词包括目标的名称和目标的类别;
(4.2)将所述的目标的名称和目标的类别结合语义属性关联信息替换成步骤2)中所述目标的详细分类信息;
(403)进行自然语言关键词关联,利用步骤2)获得的待测遥感影像中不同类别目标的数量信息融入到步骤3)获得的遥感影像的场景语义描述中去,获得具备定性和定量描述能力的场景描述结果。
Claims (6)
1.一种多模型综合的遥感影像场景描述方法,其特征在于,包括以下步骤:
1)构建遥感影像场景描述样本库,包括目标检测样本集、地物分割样本集、目标识别样本集和语义描述样本集;
2)分别对深度学习目标检测模型、深度学习地物分类模型和深度学习目标分类模型进行训练,并利用训练好的模型进行目标检测识别和地物分类,生成结构化信息;
3)建立基于遥感场景影像和标注的自然语言描述模型,使用循环神经网络结构构成自然语言描述模型中的自然语言描述部分,使用卷积神经网络构成自然语言描述模型中的图像处理部分,利用语义描述样本集对自然语言描述模型进行训练,并利用训练好的自然语言描述模型获得遥感影像的场景语义描述;
4)将步骤2)中获得的结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到步骤3)中获得的遥感影像的场景语义描述中,从而获得具备定性和定量描述能力的场景描述结果。
2.根据权利要求1所述的一种多模型综合的遥感影像场景描述方法,其特征在于,步骤1)中所述的:
(1.1)目标检测样本集,包括遥感影像、遥感影像的分辨率信息和尺寸信息、遥感影像中目标的位置信息和目标的类别信息;
(1.2)地物分割样本集,包括遥感影像、遥感影像的分辨率信息和尺寸信息、遥感影像中地物像素级位置信息和地物类别信息;
(1.3)目标识别样本集,包括目标影像切片、目标影像切片的分辨率信息和尺寸信息、目标影像切片中目标外观属性信息和详细类别信息;
(1.4)语义描述样本集,包括遥感影像、遥感影像的分辨率信息和尺寸信息、遥感影像中场景语义描述信息。
3.根据权利要求1所述的一种多模型综合的遥感影像场景描述方法,其特征在于,步骤2)中所述的深度学习目标检测模型两阶段目标检测模型或单阶段目标检测模型。
4.根据权利要求1所述的一种多模型综合的遥感影像场景描述方法,其特征在于,步骤2)包括:
(2.1)采用目标检测样本集对深度学习目标检测模型进行训练,采用地物分割样本集对深度学习地物分类模型进行训练,采用目标识别样本集对深度学习目标分类模型进行训练;
(2.2)将待测的遥感影像输入训练好的深度学习目标检测模型进行目标检测,获得目标位置、目标类别和目标切片;
(2.3)将待测的遥感影像输入训练好的深度学习地物分类模型进行地物分割分类,获得地物像素级位置和地物类别;
(2.3)将所述的目标切片输入训练好的深度学习目标分类模型,获得目标的详细分类信息;
(2.4)将目标位置、目标类别、地物像素级位置、地物类别和目标的详细分类信息共同构成结构化信息,并汇总待测遥感影像中不同类别目标的数量信息。
5.根据权利要求1所述的一种多模型综合的遥感影像场景描述方法,其特征在于,步骤3)包括:
(3.1)在循环神经网络结构中增加LSTM模块和注意力模块;
(3.2)利用语义描述样本集训练自然语言描述模型,其中,模型训练损失函数包括LSTM模块语义描述误差和注意力模块误差两部分,利用模型训练损失函数对自然语言描述模型进行反馈调节;
(303)将待测遥感影像输入训练好的自然语言描述模型,进行场景描述语言生成,获得遥感影像的场景语义描述。
6.根据权利要求1所述的一种多模型综合的遥感影像场景描述方法,其特征在于,所述步骤4)包括:
4)将步骤2)中获得的结构化信息通过核心词语匹配和目标位置信息补充的方式嵌入到步骤3)中获得的遥感影像的场景语义描述中,从而获得具备定性和定量描述能力的场景描述结果;
(4.1)将步骤3)获得的遥感影像的场景语义描述进行关键词提取,提取的关键词包括目标的名称和目标的类别;
(4.2)将所述的目标的名称和目标的类别结合语义属性关联信息替换成步骤2)中所述目标的详细分类信息;
(403)进行自然语言关键词关联,利用步骤2)获得的待测遥感影像中不同类别目标的数量信息融入到步骤3)获得的遥感影像的场景语义描述中去,获得具备定性和定量描述能力的场景描述结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110930199.8A CN113610025B (zh) | 2021-08-13 | 2021-08-13 | 一种多模型综合的遥感影像场景描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110930199.8A CN113610025B (zh) | 2021-08-13 | 2021-08-13 | 一种多模型综合的遥感影像场景描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113610025A CN113610025A (zh) | 2021-11-05 |
CN113610025B true CN113610025B (zh) | 2022-08-09 |
Family
ID=78308496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110930199.8A Active CN113610025B (zh) | 2021-08-13 | 2021-08-13 | 一种多模型综合的遥感影像场景描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113610025B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457396B (zh) * | 2022-09-26 | 2023-06-23 | 河北省科学院地理科学研究所 | 一种基于遥感影像的地表目标地物检测方法 |
CN119007284A (zh) * | 2024-07-31 | 2024-11-22 | 国网吉林省电力有限公司通化供电公司 | 一种基于多模型的带电作业现场行为自动化自然语言描述方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171283A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于结构化语义嵌入的图像内容自动描述方法 |
CN109740471A (zh) * | 2018-12-24 | 2019-05-10 | 中国科学院西安光学精密机械研究所 | 基于联合潜在语义嵌入的遥感图像描述方法 |
CN110502655A (zh) * | 2019-07-31 | 2019-11-26 | 武汉大学 | 一种嵌入场景文字信息的图像自然描述语句生成方法 |
CN111612103A (zh) * | 2020-06-23 | 2020-09-01 | 中国人民解放军国防科技大学 | 结合抽象语义表示的图像描述生成方法、系统及介质 |
CN111860235A (zh) * | 2020-07-06 | 2020-10-30 | 中国科学院空天信息创新研究院 | 高低层特征融合的注意力遥感图像描述的生成方法及系统 |
-
2021
- 2021-08-13 CN CN202110930199.8A patent/CN113610025B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171283A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于结构化语义嵌入的图像内容自动描述方法 |
CN109740471A (zh) * | 2018-12-24 | 2019-05-10 | 中国科学院西安光学精密机械研究所 | 基于联合潜在语义嵌入的遥感图像描述方法 |
CN110502655A (zh) * | 2019-07-31 | 2019-11-26 | 武汉大学 | 一种嵌入场景文字信息的图像自然描述语句生成方法 |
CN111612103A (zh) * | 2020-06-23 | 2020-09-01 | 中国人民解放军国防科技大学 | 结合抽象语义表示的图像描述生成方法、系统及介质 |
CN111860235A (zh) * | 2020-07-06 | 2020-10-30 | 中国科学院空天信息创新研究院 | 高低层特征融合的注意力遥感图像描述的生成方法及系统 |
Non-Patent Citations (2)
Title |
---|
Phrase-based image caption generator with hierarchical LSTM network;Ying Hua Tan等;《Neurocomputing》;20181228;全文 * |
图像描述生成研究进展;李志欣等;《计算机研究与发展》;20210128;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113610025A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mujahid et al. | Real-time hand gesture recognition based on deep learning YOLOv3 model | |
Zhang et al. | A comprehensive survey of vision-based human action recognition methods | |
CN110032737B (zh) | 一种基于神经网络的边界组合命名实体识别方法 | |
Guo et al. | A review of deep learning-based visual multi-object tracking algorithms for autonomous driving | |
CN107330420B (zh) | 基于深度学习带有旋转信息的人脸表情识别方法 | |
CN113065577A (zh) | 一种面向目标的多模态情感分类方法 | |
CN113610025B (zh) | 一种多模型综合的遥感影像场景描述方法 | |
Wang et al. | Multiscale multiinteraction network for remote sensing image captioning | |
CN113780003A (zh) | 时空数据变分编解码跨模态增强方法 | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN113378815A (zh) | 一种场景文本定位识别的模型及其训练和识别的方法 | |
CN113377844A (zh) | 面向大型关系型数据库的对话式数据模糊检索方法及装置 | |
Ashraf et al. | Audio-based multimedia event detection with DNNs and sparse sampling | |
Hua et al. | Finematch: Aspect-based fine-grained image and text mismatch detection and correction | |
CN118097694A (zh) | 图像标注数据生成、模型训练方法、装置、设备及介质 | |
CN105868269A (zh) | 基于区域卷积神经网络的精确图像检索方法 | |
KR102467616B1 (ko) | 기관 리포지토리와 연계된 개인기록 통합 관리 서비스 제공 시스템 | |
CN118799896A (zh) | 融合预训练模型的端到端缅甸语文本图像识别方法及装置 | |
Asha et al. | Artificial Neural Networks based DIGI Writing | |
Nithya et al. | A review on automatic image captioning techniques | |
CN110532449A (zh) | 一种业务文档的处理方法、装置、设备和存储介质 | |
CN117725547B (zh) | 基于跨模态特征融合网络的情感与认知演变模式识别方法 | |
CN112560925A (zh) | 一种复杂场景目标检测数据集构建方法及系统 | |
Zhang et al. | Tsic-clip: Traffic scene image captioning model based on clip | |
Balducci et al. | Detection and validation of tow-away road sign licenses through deep learning methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |